Meta stellt neues CM3leon AI-Bilderzeugungsmodell vor, das für mehr Effizienz wirbt

Greifen Sie auf unsere On-Demand-Bibliothek zu, um VB Transform 2023-Sitzungen anzusehen. Melden Sie sich hier an

Meta treibt seine Forschung zu neuen Formen generativer KI-Modelle weiter voran und stellt heute sein neuestes Projekt namens CM3leon (ausgesprochen als „Chamäleon“) vor.

CM3leon ist eine grundlegende multimodale Vorlage für die Text-Bild-Erstellung sowie für die Bild-Text-Erstellung, die für die automatische Generierung von Bildunterschriften nützlich ist.

KI-generierte Bilder sind derzeit offensichtlich kein neues Konzept, da beliebte Tools wie Stable Diffusion, DALL-E und Midjourney weithin verfügbar sind.

Neu sind die Techniken, die Meta zum Erstellen von CM3leon verwendet, und die Leistung, die Meta angeblich mit dem Basismodell erreichen kann.

Fall

VB Transform 2023 auf Anfrage

Haben Sie eine Sitzung von VB Transform 2023 verpasst? Melden Sie sich an, um auf die On-Demand-Bibliothek aller unserer vorgestellten Sitzungen zuzugreifen.

Jetzt registrieren

Technologien zur Text-zu-Bild-Generierung stützen sich heutzutage in hohem Maße auf die Verwendung von Diffusionsmodellen (von denen Stable Diffusion ihren Namen hat), um ein Bild zu erstellen. CM3leon verwendet etwas anderes: ein tokenbasiertes autoregressives Modell.

„Diffusionsmodelle haben aufgrund ihrer hohen Leistung und relativ geringen Rechenkosten in letzter Zeit die Arbeit bei der Bilderzeugung dominiert“, schrieb Meta Research in einem Forschungsbericht mit dem Titel „Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning“. „Im Gegensatz dazu liefern tokenbasierte autoregressive Modelle bekanntermaßen ebenfalls gute Ergebnisse, insbesondere mit einer noch besseren Gesamtbildkonsistenz, sind aber viel teurer im Training und in der Verwendung für Inferenzen.“ p>

Meta-Forscher konnten mit CM3leon tatsächlich zeigen, wie das tokenbasierte autoregressive Modell tatsächlich effizienter sein kann als ein Diffusionsmodell-basierter Ansatz.

„CM3leon erreicht eine branchenführende Leistung bei der Text-zu-Bild-Generierung, obwohl das Training mit fünfmal weniger Rechenaufwand als frühere transformatorbasierte Methoden erfolgt“, schrieb Forscher Meta in einem Blogbeitrag.

Das Grundschema, wie CM3leon funktioniert, ähnelt in gewisser Weise der Funktionsweise bestehender Textgenerierungsmodelle.

Die Metaforscher begannen mit einer Vortrainingsphase, die durch Erholung ergänzt wurde. Anstatt einfach nur öffentlich verfügbare Bilder aus dem Internet zu entfernen, eine Methode, die bei auf Rundfunk basierenden Modellen zu rechtlichen Problemen geführt hat, hat Meta einen anderen Schritt unternommen ...

Meta stellt neues CM3leon AI-Bilderzeugungsmodell vor, das für mehr Effizienz wirbt

Greifen Sie auf unsere On-Demand-Bibliothek zu, um VB Transform 2023-Sitzungen anzusehen. Melden Sie sich hier an

Meta treibt seine Forschung zu neuen Formen generativer KI-Modelle weiter voran und stellt heute sein neuestes Projekt namens CM3leon (ausgesprochen als „Chamäleon“) vor.

CM3leon ist eine grundlegende multimodale Vorlage für die Text-Bild-Erstellung sowie für die Bild-Text-Erstellung, die für die automatische Generierung von Bildunterschriften nützlich ist.

KI-generierte Bilder sind derzeit offensichtlich kein neues Konzept, da beliebte Tools wie Stable Diffusion, DALL-E und Midjourney weithin verfügbar sind.

Neu sind die Techniken, die Meta zum Erstellen von CM3leon verwendet, und die Leistung, die Meta angeblich mit dem Basismodell erreichen kann.

Fall

VB Transform 2023 auf Anfrage

Haben Sie eine Sitzung von VB Transform 2023 verpasst? Melden Sie sich an, um auf die On-Demand-Bibliothek aller unserer vorgestellten Sitzungen zuzugreifen.

Jetzt registrieren

Technologien zur Text-zu-Bild-Generierung stützen sich heutzutage in hohem Maße auf die Verwendung von Diffusionsmodellen (von denen Stable Diffusion ihren Namen hat), um ein Bild zu erstellen. CM3leon verwendet etwas anderes: ein tokenbasiertes autoregressives Modell.

„Diffusionsmodelle haben aufgrund ihrer hohen Leistung und relativ geringen Rechenkosten in letzter Zeit die Arbeit bei der Bilderzeugung dominiert“, schrieb Meta Research in einem Forschungsbericht mit dem Titel „Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning“. „Im Gegensatz dazu liefern tokenbasierte autoregressive Modelle bekanntermaßen ebenfalls gute Ergebnisse, insbesondere mit einer noch besseren Gesamtbildkonsistenz, sind aber viel teurer im Training und in der Verwendung für Inferenzen.“ p>

Meta-Forscher konnten mit CM3leon tatsächlich zeigen, wie das tokenbasierte autoregressive Modell tatsächlich effizienter sein kann als ein Diffusionsmodell-basierter Ansatz.

„CM3leon erreicht eine branchenführende Leistung bei der Text-zu-Bild-Generierung, obwohl das Training mit fünfmal weniger Rechenaufwand als frühere transformatorbasierte Methoden erfolgt“, schrieb Forscher Meta in einem Blogbeitrag.

Das Grundschema, wie CM3leon funktioniert, ähnelt in gewisser Weise der Funktionsweise bestehender Textgenerierungsmodelle.

Die Metaforscher begannen mit einer Vortrainingsphase, die durch Erholung ergänzt wurde. Anstatt einfach nur öffentlich verfügbare Bilder aus dem Internet zu entfernen, eine Methode, die bei auf Rundfunk basierenden Modellen zu rechtlichen Problemen geführt hat, hat Meta einen anderen Schritt unternommen ...

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow