Zwei Jahre nach dem Debüt von DALL-E ist sein Erfinder von der Wirkung „überrascht“.

Sehen Sie sich hier alle On-Demand-Sitzungen des Smart Security Summit an.

Vor DALL-E 2, Stable Diffusion and Midjourney, gab es nur eine Forschungsarbeit namens „Zero-Shot Text-to-Image Generation“.

Mit diesem Artikel und einer kontrollierten Website-Demo stellte OpenAI am 5. Januar 2021 (heute vor zwei Jahren) DALL-E vor, ein neuronales Netzwerk, das „Bilder aus Textbeschriftungen für eine Vielzahl von Konzepten erstellt, die in natürlicher Sprache ausgedrückt werden können. ”

Die 12-Milliarden-Parameter-Version des Transformer GPT-3-Sprachmodells wurde darauf trainiert, Bilder aus Textbeschreibungen zu generieren, wobei ein Datensatz von Text-Bild-Paaren verwendet wurde. Der Reporter von VentureBeat, Khari Johnson, beschrieb den Namen als "soll an den Künstler Salvador Dali und den Roboter WALL-E erinnern" und fügte eine von DALL-E generierte Illustration eines "Rettichbabys in einem Tutu, das um einen Hund herumläuft" hinzu.

Bild von DALL-E

Seitdem haben sich die Dinge rasant entwickelt, so Aditya Ramesh, OpenAI-Forscherin, Erfinderin von DALL-E und Miterfinderin von DALL-E 2. Angesichts des schwindelerregenden Entwicklungstempos der generativen KI ist das mehr als eine Untertreibung Platz im vergangenen Jahr. Dann gab es den kometenhaften Aufstieg der Diffusion-Modelle, die für DALL-E 2, das im vergangenen April veröffentlicht wurde, und seine Open-Source-Pendants Stable Diffusion und Midjourney eine Wende darstellten.
Fall
Smart Security Summit auf Abruf

Erfahren Sie mehr über die wesentliche Rolle von KI und ML in der Cybersicherheit und branchenspezifische Fallstudien. Sehen Sie sich noch heute die On-Demand-Sitzungen an.
Schau hier
„Vor nicht allzu langer Zeit hatten wir das Gefühl, dass wir diese Forschungsrichtung ausprobieren wollten, um zu sehen, was getan werden könnte“, sagte Ramesh gegenüber VentureBeat. „Ich wusste, dass die Technologie einen Punkt erreichen würde, an dem sie Auswirkungen auf die Verbraucher haben und für viele verschiedene Anwendungen nützlich sein würde, aber ich war dennoch von der Geschwindigkeit überrascht.“

Jetzt nähert sich die generative Modellierung dem Punkt, an dem "es eine Art iPhone-ähnlichen Moment für die Bildgenerierung und andere Modalitäten geben wird", sagte er. "Ich freue mich darauf, etwas zu schaffen, das für all diese Anwendungen verwendet wird, die entstehen werden."

Die DALL-E 1-Forschung wurde in Verbindung mit CLIP (Contrastive Language-Image Pre-training) entwickelt und angekündigt, einem eigenständigen Modell, das auf Zero-Shot-Lernen basiert und im Wesentlichen die geheime Zutat von DALL-E war. CLIP wa...

Startups Jan 5, 2023 0 32 Add to Reading List

Zwei Jahre nach dem Debüt von DALL-E ist sein Erfinder von der Wirkung „überrascht“.

Sehen Sie sich hier alle On-Demand-Sitzungen des Smart Security Summit an.

Vor DALL-E 2, Stable Diffusion and Midjourney, gab es nur eine Forschungsarbeit namens „Zero-Shot Text-to-Image Generation“.

Mit diesem Artikel und einer kontrollierten Website-Demo stellte OpenAI am 5. Januar 2021 (heute vor zwei Jahren) DALL-E vor, ein neuronales Netzwerk, das „Bilder aus Textbeschriftungen für eine Vielzahl von Konzepten erstellt, die in natürlicher Sprache ausgedrückt werden können. ”

Die 12-Milliarden-Parameter-Version des Transformer GPT-3-Sprachmodells wurde darauf trainiert, Bilder aus Textbeschreibungen zu generieren, wobei ein Datensatz von Text-Bild-Paaren verwendet wurde. Der Reporter von VentureBeat, Khari Johnson, beschrieb den Namen als "soll an den Künstler Salvador Dali und den Roboter WALL-E erinnern" und fügte eine von DALL-E generierte Illustration eines "Rettichbabys in einem Tutu, das um einen Hund herumläuft" hinzu.

Seitdem haben sich die Dinge rasant entwickelt, so Aditya Ramesh, OpenAI-Forscherin, Erfinderin von DALL-E und Miterfinderin von DALL-E 2. Angesichts des schwindelerregenden Entwicklungstempos der generativen KI ist das mehr als eine Untertreibung Platz im vergangenen Jahr. Dann gab es den kometenhaften Aufstieg der Diffusion-Modelle, die für DALL-E 2, das im vergangenen April veröffentlicht wurde, und seine Open-Source-Pendants Stable Diffusion und Midjourney eine Wende darstellten.

Fall

Smart Security Summit auf Abruf

Erfahren Sie mehr über die wesentliche Rolle von KI und ML in der Cybersicherheit und branchenspezifische Fallstudien. Sehen Sie sich noch heute die On-Demand-Sitzungen an.

Schau hier

„Vor nicht allzu langer Zeit hatten wir das Gefühl, dass wir diese Forschungsrichtung ausprobieren wollten, um zu sehen, was getan werden könnte“, sagte Ramesh gegenüber VentureBeat. „Ich wusste, dass die Technologie einen Punkt erreichen würde, an dem sie Auswirkungen auf die Verbraucher haben und für viele verschiedene Anwendungen nützlich sein würde, aber ich war dennoch von der Geschwindigkeit überrascht.“

Jetzt nähert sich die generative Modellierung dem Punkt, an dem "es eine Art iPhone-ähnlichen Moment für die Bildgenerierung und andere Modalitäten geben wird", sagte er. "Ich freue mich darauf, etwas zu schaffen, das für all diese Anwendungen verwendet wird, die entstehen werden."

Die DALL-E 1-Forschung wurde in Verbindung mit CLIP (Contrastive Language-Image Pre-training) entwickelt und angekündigt, einem eigenständigen Modell, das auf Zero-Shot-Lernen basiert und im Wesentlichen die geheime Zutat von DALL-E war. CLIP wa...