Ein Bild genügt Microsoft VASA-1 generiert realistische Video-Portraits aus einer Audiodatei

// 10:50 Do, 18. Apr 2024von Rudi Schmidts

Eine Forschungsgruppe bei Microsoft hat ein neues KI-Framework namens VASA-1 vorgestellt, das die Generierung lebensechter, sprechender Gesichter mit auffällig ansprechenden visuellen Fähigkeiten ermöglicht. Das Framework benötigt als Input lediglich ein statisches Bild und einen Sprach-Audioclip als Eingabe.

Gegenüber anderen Modellen geht VASA-1 jedoch über einfache Lippenbewegungen hinaus und generiert ein breites Spektrum von Gesichts-Nuancen und natürlichen Kopfbewegungen. Unter der Haube von VASA-1 arbeitet ein ganzheitliches Modell zur Generierung von Gesichtsdynamiken und Kopfbewegungen, das auf einem explizit hierfür trainierten Latent Space für Gesichter basiert.

Microsoft VASA-1 generiert animierte, realistische Video-Portraits aus einer Audiodatei

Die erzeugten Videos zeigen eine neue Qualität von realistischen Gesichts- und Kopfbewegungen und können online mit einer Auflösung von 512x512 Pixeln und bis zu 40 Bildern pro Sekunde generiert werden - bei äußerst geringer Startlatenz. Äußerst bemerkenswert sind zudem die Manipulationsmöglichkeiten hinsichtlich Blickrichtung, Framing und Emotionen (!!).

Die Forscher betonen dabei noch einmal besonders, dass alle generierten Porträtbilder virtuell sind und keine realen Personen darstellen. Sie betonen zudem, dass sie sich der Verantwortung bei der Anwendung von KI bewusst sind und wollen auf das positive Potenzial ihrer Technik für Bildung, Zugänglichkeit und therapeutische Unterstützung hinweisen. Auch ein ebenso enormes Potential für die Zukunft von interaktiven, lebensechten Avataren wird hierbei deutlich angesprochen.

Die folgende Demonstration zeigt, wie sich VASA-1 theoretisch sogar bei Videokonferenzen in Echtzeit nutzen ließe:

Um Missbrauch auszuschließen, gäbe es jedoch derzeit keine Pläne, Demos, APIs oder Produkte zu veröffentlichen, bevor nicht sichergestellt ist, dass die Technologie verantwortungsvoll und regulierungskonform genutzt werden kann.

Tatsächlich lässt sich bei vielen gezeigten Beispielen nur bei sehr genauem hinsehen erkennen, dass es sich um künstlich generierte Avatare handelt - und nicht um echte Menschen.

mehr Infos bei
www.microsoft.com

Auf Socials teilen:

Leserkommentare // Neueste

7River // 07:21 am 19.4.2024

Entschuldigung für meinen unqualifizierten Kommentar. Ich bin da weit abgeschweift.

Frank Glencairn // 06:17 am 19.4.2024

Was hat all das mit sprechenden Passbildern zu tun? Die Gesichter werden ja nicht erzeugt, sondern nur per Audio Aufzeichnung animiert. Und was DNA Phenotyping...weiterlesen

MK // 20:51 am 18.4.2024

Klar, wenn der Täter ein Passbild am Tatort hinterlässt... in der Überschrift des Artikels fehlt folgendes: Das Framework benötigt als Input lediglich ein statisches Bild...weiterlesen

Im Forum mitdiskutieren >>

Ähnliche News //

News

Erweckte Standbilder EMO - KI lässt Portraits sprechen und singen

In den letzten Jahren hat der Bereich der KI-Bilderzeugung bemerkenswerte Fortschritte erlebt, die zuletzt vor allem auf Diffusionsmodellen basieren. Solche Modelle wie Stable ...

// 15:04 Do, 29. Feb 2024von Rudi Schmidts

News

Open Source Tool macht verpixelte Texte wieder lesbar

Soll in einem Photo oder Video ein gut sichtbarer abgebildeter Text (etwa auf einem Computer-Bildschirm, Nummernschild oder einem Dokument) unlesbar gemacht werden, weil er zum ...

// 20:50 So, 20. Feb 2022von Thomas Richter

News

Nvidias KI erschafft noch realistischere Animationen von künstlichen Gesichtern

Schon seit längerem arbeitet Nvidia zusammen mit der finnischen Aalto University an neuronalen Netzen, die verblüffend echt aussehende Gesichter generieren. Im Laufe der Zeit ...

// 13:00 Di, 27. Jul 2021von Thomas Richter

News

Disney kombiniert CGI mit KI für filmtaugliche Gesichtsanimationen

Wir hatten ja schon öfter über Nvidias Style GAN Deep Learning Algorithmus zum Generieren und Animieren berichtet und auch von Disneys Experimenten mit DeepFake-Algorithmen zur ...

// 11:00 So, 5. Dez 2021von Thomas Richter

News

Bild-KI Midjourney V5 liefert fotorealistische Bilder - und endlich auch korrekte ...

Midjourney, eine der drei großen bildgenerierenden KIs, hat mit der eben erschienenen neuen (Alpha)Version 5 einen weiteren großen Schritt gemacht: die produzierten Bilder weisen ....

// 12:24 So, 19. Mär 2023von Thomas Richter

zur Newsübersicht >

Generative Video-KI-Funktionen Adobe Firefly für Premiere Pro - Generative Extend, Object removal/addition

Zuletzt im Oktober hatte Adobe Firefly-Funktionen für Premiere Pro geteasert, darunter eine Generative Fill-Funktion - nun wird es konkret. Denn noch in diesem Jahr sollen über ...

// 15:08 Mo, 15. Apr 2024von blip

News

Übernahme ist durch RED ist nun eine Nikon-Tochter - und Jarred Land abgesetzt

Rechtzeitig zur NAB gab Nikon bekannt, die Übernahme von RED sei nun zu 100% vollzogen. Ab sofort werden Jarred Land zusammen mit James Jannard nur noch enge Berater der Nikon-...

// 14:13 So, 14. Apr 2024von blip

News

Günstiger und besser? Blackmagic stellt neues DaVinci Resolve Micro Color Panel für 495 Dollar vor

Blackmagic Design hat auf der NAB mit dem DaVinci Resolve Micro Color Panel ein weiteres, besonders erschwingliches Pult für die Farbkorrektur mit DaVinci Resolve angekündigt, ...

// 09:06 Sa, 13. Apr 2024von Rudi Schmidts

News

Blackmagic PYXIS 6K: Die Vollformat "Box"-Kamera mit Viewfinder, 2x SDI, Sideplates (!) uvm.

Am vielseitigsten riggbare Cam Blackmagic PYXIS 6K: Die Vollformat „Box“-Kamera mit Viewfinder, 2x SDI, Sideplates ...

Von vielen seit langem ersehnt und jetzt da: Blackmagic stellt mit der Pyxis 6K gleich drei leistungsstärkere Vollformat-Versionen seiner Cinema Camera 6K vor, die in ein ...

// 03:40 Sa, 13. Apr 2024von Rob

TOP THEMEN //

zum Forum >>

MEHR NEWS

zum Newsindex >

PASSENDE DISKUSSIONEN

zum Forum >>

Passende Artikel //

Aktuelles

Die Stable Diffusion Revolution: Kostenlose Bildgenerierung per KI jetzt auch auf dem Heim-PC

Seit ein paar Tagen ist es endlich soweit: die Text-zu-Bild KI Stable Diffusion wurde veröffentlicht und kann kostenlos auf dem eigenen Computer genutzt werden - damit ist jetzt ...

// 15:03 Di, 30. Aug 2022von Thomas Richter

Aktuelles

macOS 14 kann wieder externe Codecs einbinden - bald BRAW-Support durch MediaExtension-Framework?

Apple öffnet macOS erstmals seit 2019 wieder für systemweite Codecs von Drittherstellern. Welche Auswirkungen wird dies für RAW-Codecs haben?

// 11:12 So, 11. Jun 2023von Rudi Schmidts

zur Artikelübersicht >

Was hältst du von den neuen Bild/Video-KIs?
Toll, so viele neue Kreativtools!
Sie werden das Filmemachen vereinfachen
Sie werden das Filmen z.T. ersetzen
Sie werden mich arbeitslos machen
Die sind völlig überbewertet

Ergebnis ansehen

Aktuelle News //

News

Ohne Führerschein Mini 4K - DJIs günstigste 4K/30p Drohne kostet nur 299 US-Dollar

DJI´s neueste Kameradrohne, die Mini 4K - bleibt weiterhin unter 250 Gramm und darf deswegen ohne Führerschein geflogen werden. Mit einem Preis von 299 Dollar ist sie zugleich ...

// 13:45 Di, 30. Apr 2024von Rudi Schmidts

News

Mixed Reality Headset Apple Vision Pro - Bereits nachlassende Nachfrage in den USA?

Mittlerweile häufen sich die Hinweise, dass die Nachfrage nach Apples Vision Pro-Headset in den USA deutlich nachgelassen hat. Auch behauptet Apple-Analyst Ming-Chi Kuo, dass ...

// 12:16 Di, 30. Apr 2024von Rudi Schmidts

zur Newsübersicht >