Ein Bild genügt Microsoft VASA-1 generiert realistische Video-Portraits aus einer Audiodatei

// 10:50 Do, 18. Apr 2024von

Eine Forschungsgruppe bei Microsoft hat ein neues KI-Framework namens VASA-1 vorgestellt, das die Generierung lebensechter, sprechender Gesichter mit auffällig ansprechenden visuellen Fähigkeiten ermöglicht. Das Framework benötigt als Input lediglich ein statisches Bild und einen Sprach-Audioclip als Eingabe.


Gegenüber anderen Modellen geht VASA-1 jedoch über einfache Lippenbewegungen hinaus und generiert ein breites Spektrum von Gesichts-Nuancen und natürlichen Kopfbewegungen. Unter der Haube von VASA-1 arbeitet ein ganzheitliches Modell zur Generierung von Gesichtsdynamiken und Kopfbewegungen, das auf einem explizit hierfür trainierten Latent Space für Gesichter basiert.



Microsoft VASA-1 generiert animierte, realistische Video-Portraits aus einer Audiodatei
Microsoft VASA-1 generiert animierte, realistische Video-Portraits aus einer Audiodatei


Die erzeugten Videos zeigen eine neue Qualität von realistischen Gesichts- und Kopfbewegungen und können online mit einer Auflösung von 512x512 Pixeln und bis zu 40 Bildern pro Sekunde generiert werden - bei äußerst geringer Startlatenz. Äußerst bemerkenswert sind zudem die Manipulationsmöglichkeiten hinsichtlich Blickrichtung, Framing und Emotionen (!!).



Die Forscher betonen dabei noch einmal besonders, dass alle generierten Porträtbilder virtuell sind und keine realen Personen darstellen. Sie betonen zudem, dass sie sich der Verantwortung bei der Anwendung von KI bewusst sind und wollen auf das positive Potenzial ihrer Technik für Bildung, Zugänglichkeit und therapeutische Unterstützung hinweisen. Auch ein ebenso enormes Potential für die Zukunft von interaktiven, lebensechten Avataren wird hierbei deutlich angesprochen.



Die folgende Demonstration zeigt, wie sich VASA-1 theoretisch sogar bei Videokonferenzen in Echtzeit nutzen ließe:





Um Missbrauch auszuschließen, gäbe es jedoch derzeit keine Pläne, Demos, APIs oder Produkte zu veröffentlichen, bevor nicht sichergestellt ist, dass die Technologie verantwortungsvoll und regulierungskonform genutzt werden kann.



Tatsächlich lässt sich bei vielen gezeigten Beispielen nur bei sehr genauem hinsehen erkennen, dass es sich um künstlich generierte Avatare handelt - und nicht um echte Menschen.



Microsoft VASA-1 generiert animierte, realistische Video-Portraits aus einer Audiodatei
Microsoft VASA-1 generiert animierte, realistische Video-Portraits aus einer Audiodatei


Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash