Neue Studie Was werden KI-Videogeneratoren wie Open AI Sora im kommerziellen Einsatz kosten?

// 11:14 Mo, 8. Apr 2024von

Sora hatte vor nicht einmal zwei Monaten die Welt verblüfft, weil es eine bisher noch niemals dagewesene Qualität bei KI-generierten Videos demonstrierte. In einem Blogbeitrag der Investmentgesellschaft Factorial Funds wird nun versucht zu erklären, wie der Videogenerator Sora von Open AI im Detail funktioniert und wieviel die Videogenerierung damit kosten wird.


So handelt es sich um ein nicht sonderlich außergewöhnliches Diffusionsmodell, das auf Diffusion Transformers (DiT) und Latent Diffusion aufbaut und wohl vor allem von mehr Gewichten sowie einem größeren Trainingsdatensatz zu profitieren scheint. Das könnte im Umkehrschluss bedeuten, dass sich die Skalierung von Videomodellen auch in der Zukunft noch lohnt und dass eine weitere Skalierung, ähnlich wie bei Large Language Models (LLMs), der Haupttreiber für eine schnelle Verbesserung der Modelle sein wird.



Besonders interessant ist in diesem Zusammenhang, dass Factorial Funds aufgrund der Modelldaten auch eine konkrete Abschätzung der benötigten Rechenleistung für das Inferencing liefert - welches Nvidia nebenbei erwähnt seit neuestem deutlich verständlicher als "Generating" bezeichnet.





So soll Sora schon zum Trainieren eine enorme Menge an Rechenleistung benötigen, die auf 4.200–10.500 Nvidia H100-GPUs für einen Monat geschätzt wird. Der interessantere Datenpunkt ist jedoch, dass Sora pro Nvidia H100-GPU höchstens 5 Minuten Video pro Stunde generieren kann. Das ist im Vergleich zur typischen Ausgabe von Large Language Tokens um mehrere Zehnerpotenzen größer.



Sollten sich die Annahmen von Factorial Funds in einer korrekten Größenordnung bewegen, dann dürfte die Erstellung von 5 Minuten Video in Sora Qualität ungefähr 2 Dollar kosten. Dies ist zumindest der aktuelle Preis, den man für 1 Stunde eine H100 bei einem günstigen Cloud Provider mieten kann - wie OpenAI im Endeffekt aber tatsächlich den Preis für Nutzer gestalten wird steht in den Sternen. Einen ersten Hinweis darauf gab OpenAIs CTO Mira Murati in einem vielbeachteten Interview, welche davon sprach, daß das Ziel sei, die KI-Videogenerierung zu Preisen ähnlich der Bilderzeugung von Dall-E anzubieten.



Eine Beispielrechnung allerdings führt zu einem ziemlich hohen Preis - so kostet die Bildgenerierung per DALL-E 3 aktuell 0,08 Dollar für ein Bildquadrat in HD-Qualität bzw. 0,12 Dollar für eine Auflösung von 1792×1024. Eine analoge Preisgestaltung für Videoclips, die ja aus einer Vielzahl Einzelbilder bestehen, würde bei einer Framerate von 30 fps einen Sekundenpreis von 3,60 Dollar ergeben und eine Minute würde so ganze 216 Dollar kosten, was die Verwendung ganz auf professionelle Szenarien beschränken würde. Stimmen aber von Factorial Funds geschätzten Basiskosten von 2 Dollar pro 5 Minuten, dann ließe das OpenAI viel Freiraum bei der Preisgestaltung.



Interessant ist zudem, dass in diesem Anwendungsfall der Videogenerierung die benötigte Inference Leistung schon relativ früh die benötigte Trainingsleistung überholt. Daher schätzt der Blogbeitrag abschließend alleine für die Videogenerierung auf beliebten Plattformen wie TikTok und YouTube einen Spitzenbedarf von ungefähr 720.000 Nvidia H100 GPUs bei einer Annahme von einem Anteil von 50% bzw 15% per KI generierter Videos des täglichen Uploads. Allerdings fragt sich, auf wessen Konto eine solche Zeche gehen würde.



Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash