Generative KI-Forschung ConsiStory in Stable Diffusion - Endlich konsistente KI-Charaktere ohne Finetuning?

// 09:12 Mi, 14. Feb 2024von

Auf der Projektwebseite steht zwar noch "anonyme Autoren", jedoch stellt das arxiv.org/pdf/2402.03286.pdf (verlinkte PDF-Paper) klar, dass "ConsiStory" aus den Forschungseinrichtungen von Nvidia stammt. Dieses Projekt nimmt sich dabei dem Problem an, dass es oft schwer fällt, einen oder mehrere Charaktere über mehrere Bildgenerationen konsistent zu nutzen. So sieht ein "Alter Mann mit Hut" je nach den übrigen Prompt-Tokens meistens mit jedem Gernerierungsversuch signifikant anders aus. Dies versteht man unter dem aktuellen Konsistenz-Problem der Generativen KI.


Bisher begegnete man diesem Problem mit dem sogenannten Finetuning - das heißt, man "personalisierte" ein bereits trainiertes KI-Modell mit weiteren Bildern einer oder mehrerer spezieller Personen. Dies ist jedoch rechenaufwendig und erfordert zudem ein gewisses Know-How.



Mit ConsiStory soll es nun dagegen ohne zusätzliches Training möglich sein, innerhalb von Stable Diffusion XL (SDXL) konsistente Motive über eine Reihe von Bildern hinweg zu generieren. Die Forscher von Nvidia nutzen dafür ein ein neues Feature, welches sie "korrespondenzbasierte Feature-Injection" nennen. ConsiStory soll sich hiermit sogar auf Multi-Subject-Szenarien erweitern lassen und eine trainingsfreie Personalisierung für gängige Objekte ermöglichen.



ConsiStory erlaubt ohne Finetuning die Nutzung konsistenter Charaktere
ConsiStory erlaubt ohne Finetuning die Nutzung konsistenter Charaktere


Durch das ausbleibende Training sollen solche Bilder auf einer einzigen Nvidia H100 bereits in zehn Sekunden zu erstellen sein - was laut Paper rund zwanzig mal schneller sei, als bisherige State-of-the-Art-Methoden.



Der Qualität der bislang veröffentlichten Ergebnisse nach zu schließen, dürfte Nvidia hier ein kleiner Meilenstein in der generativen KI Forschung gelungen zu sein - denn Konsistenz bei Charakteren ist eines der großen Probleme, an denen aktuell viele praktische Einsatzszenarien für generative KI "hängen". Und natürlich auch einige eher ungewollte KI-Projekte, wie beispielsweise vollautomatisierte, virtuelle KI-Influencer.



Selbst nutzbarer Code zum Ausprobieren von ConsiStory soll "in Kürze" auf der Github-Projektseite für Interessierte als Link zur Verfügung gestellt werden.




Ähnliche News //
Umfrage
  • Was hältst du von den neuen Bild/Video-KIs?





    Ergebnis ansehen
slashCAM nutzt Cookies zur Optimierung des Angebots, auch Cookies Dritter. Die Speicherung von Cookies kann in den Browsereinstellungen unterbunden werden. Mehr Informationen erhalten Sie in unserer Datenschutzerklärung. Mehr Infos Verstanden!
RSS Suche YouTube Facebook Twitter slashCAM-Slash