Hast du schon von ShengShu-AI gehört? Ich auch nicht – bis jetzt. Das Unternehmen aus Peking wurde erst letztes Jahr gegründet und hat sich auf die Entwicklung multimodaler KI-Modelle spezialisiert. Trotz seiner kurzen Geschichte hat ShengShu-AI bereits eine Bewertung von 100 Millionen US-Dollar erreicht und namhafte Investoren wie die Ant Group und Baidu angezogen. Ein klares Zeichen dafür, dass hier etwas Großes entsteht.
Vidu: Chinas Antwort auf OpenAIs SORA
Mit Vidu präsentiert ShengShu-AI nun ein Text-to-Video-Modell, das an OpenAIs SORA erinnert. Laut eigenen Angaben kann Vidu Videos mit einer Länge von bis zu 16 Sekunden und einer Auflösung von 1080p generieren. Dafür nutzt das Unternehmen sein eigenes Universal Vision Transformer Modell (U-ViT).
In einem Demonstrationsvideo zeigt Vidu einige beeindruckende Ergebnisse, die an die Veröffentlichung von SORA erinnern. Neben chinesischen Motiven wie Pandas und Drachen finden sich auch viele Szenen, die wir bereits von SORA kennen. Im direkten Vergleich wirken die Ergebnisse von SORA noch etwas realistischer und detaillierter, aber Vidu ist definitiv ein ernstzunehmender Konkurrent.
Asiens Fortschritte in der KI-Entwicklung
Vidu ist nur eines von vielen spannenden KI-Projekten, die in den letzten Monaten aus Asien kommen. Unternehmen wie Baidu, ByteDance und Alibaba überraschen immer wieder mit beeindruckenden Entwicklungen in den Bereichen Bild-, Audio- und 3D-Generierung.
Für mich ist das ein klares Zeichen dafür, dass Asien in der KI-Forschung vielleicht gar nicht so weit hinter dem Westen zurückliegt, wie oft angenommen wird. Möglicherweise bekommen wir im Westen einfach nicht alles mit, was in Asien passiert. Ich bin mir sicher, dass uns in Zukunft noch einige Überraschungen erwarten werden.
Beeindruckend, aber noch nicht nutzbar
So beeindruckend die Fortschritte von Vidu und SORA auch sind – wir sollten nicht vergessen, dass beide Modelle aktuell noch nicht für Endanwender verfügbar sind. Außer ein paar Aussagen der Unternehmen wissen wir noch nichts über die tatsächlichen Kosten, die Geschwindigkeit und die endgültige Qualität der generierten Videos.
Eines ist jedoch sicher: Das Wettrennen um die beste Text-to-Video-KI geht munter weiter. Ich gehe davon aus, dass wir in den nächsten Monaten noch einige neue Video-Modelle sehen werden. Vielleicht erleben wir gerade erst den Anfang einer Entwicklung, die mit GPT-1 für Video vergleichbar ist. Die Zukunft bleibt spannend!
Quelle: https://www.shengshu-ai.com/home / https://mp.weixin.qq.com/s/Lba_WJTQWjQ3lOaLNJA4qA