AI Eye: Problem der Kannibalisierung von KI-Inhalten, Threads ein Verlustführer für KI-Daten?

ChatGPT frisst Kannibalen

Der ChatGPT-Hype lässt langsam nach, da die Google-Suchanfragen nach „ChatGPT“ gegenüber ihrem Höchststand im April um 40 % zurückgegangen sind, während der Webverkehr auf der ChatGPT-Website von OpenAI im letzten Monat um fast 10 % zurückgegangen ist.

Das ist einfach zu erwarten; GPT-4-Benutzer berichten jedoch auch, dass das Modell erheblich dümmer (aber schneller) aussieht als zuvor.

Eine Theorie besagt, dass OpenAI es in mehrere kleinere Modelle aufgeteilt hat, die in bestimmten Bereichen trainiert wurden und zusammenarbeiten können, aber nicht ganz auf dem gleichen Niveau.

KI-Tweet

Aber eine noch interessantere Möglichkeit spielt auch eine Rolle: KI-Kannibalismus.

Das Web wird jetzt mit Text und Bildern überflutet, und diese synthetischen Daten werden als Daten zum Trainieren von KIs ausgewertet, was zu einer negativen Rückkopplungsschleife führt. Je mehr KI-Daten ein Modell aufnimmt, desto schlechter ist die Ausgabe im Hinblick auf Konsistenz und Qualität. Es ist ein bisschen wie das, was passiert, wenn man eine Fotokopie von einer Fotokopie macht und das Bild allmählich schlechter wird.

Während die offiziellen GPT-4-Trainingsdaten im September 2021 enden, wissen sie eindeutig viel mehr als das, und OpenAI hat kürzlich sein Plugin abgeschaltet.

Eine neue Arbeit von Wissenschaftlern der Rice University und der Stanford University hat ein schönes Akronym für das Problem gefunden: oder MAD.

„Unsere wichtigste Schlussfolgerung in allen Szenarien ist, dass zukünftige generative Modelle ohne ausreichend frische reale Daten in jeder Generation einer autophagischen Schleife dazu verdammt sind, dass ihre Qualität (Genauigkeit) oder Vielfalt (Erinnerung) allmählich abnimmt“, sagten sie.

Im Wesentlichen beginnen Modelle damit, die einzigartigsten, aber am wenigsten gut repräsentierten Daten zu verlieren und ihre Ergebnisse in einem kontinuierlichen Prozess auf weniger unterschiedliche Daten zu härten. Die gute Nachricht ist, dass dies bedeutet, dass KIs jetzt einen Grund haben, Menschen auf dem Laufenden zu halten, wenn wir einen Weg finden, menschliche Inhalte für Modelle zu identifizieren und zu priorisieren. Dies ist einer der Pläne von OpenAI-Chef Sam Altman mit seinem bahnbrechenden Blockchain-Projekt Worldcoin.

Tom Goldstein

Ist Threads nur ein Verlustführer für das Training von KI-Modellen?

Der Twitter-Klon Threads ist ein etwas seltsamer Schachzug von Mark Zuckerberg, da er Instagram-Nutzer kannibalisiert. Die Foto-Sharing-Plattform verdient bis zu 50 Milliarden US-Dollar pro Jahr, wird aber voraussichtlich etwa ein Zehntel so viel verdienen wie Threads, selbst wenn man davon ausgeht, dass sie Twitter 100 % Marktanteil abnimmt. Alex Valaitis von Big Brain Daily prognostiziert, dass es innerhalb von 12 Monaten entweder geschlossen oder wieder in Instagram integriert wird, und sagt, dass der wahre Grund für die Einführung jetzt darin bestand, „mehr Textinhalte zu haben, um Vorbilder zu trainieren. ‚KI von Meta‘.“

ChatGPT wurde mit riesigen Mengen an Twitter-Daten trainiert, aber Elon Musk hat verschiedene unpopuläre Schritte unternommen, um dies in Zukunft zu verhindern (Erhebung von Gebühren für den API-Zugriff, Ratenbegrenzung usw.).

Zuck hat in dieser Hinsicht Form, da Metas Bilderkennungs-SEER anhand eines auf Instagram geposteten Fotos trainiert wurde. Benutzer haben dem in der Datenschutzerklärung zugestimmt, und nicht wenige lassen die Threads-App Daten über alles sammeln, von Gesundheitsdaten bis hin zu religiösen Überzeugungen und Rasse. Diese Daten werden unweigerlich zum Trainieren von KI-Modellen wie Facebooks LLaMA (Large Language Model Meta AI) verwendet. Musk hat unterdessen gerade einen Konkurrenten namens OpenAI gestartet, der Twitter-Daten für sein eigenes LLM analysieren wird.

AI Eye: Problem der Kannibalisierung von KI-Inhalten, Threads ein Verlustführer für KI-Daten?
ChatGPT frisst Kannibalen

Der ChatGPT-Hype lässt langsam nach, da die Google-Suchanfragen nach „ChatGPT“ gegenüber ihrem Höchststand im April um 40 % zurückgegangen sind, während der Webverkehr auf der ChatGPT-Website von OpenAI im letzten Monat um fast 10 % zurückgegangen ist.

Das ist einfach zu erwarten; GPT-4-Benutzer berichten jedoch auch, dass das Modell erheblich dümmer (aber schneller) aussieht als zuvor.

Eine Theorie besagt, dass OpenAI es in mehrere kleinere Modelle aufgeteilt hat, die in bestimmten Bereichen trainiert wurden und zusammenarbeiten können, aber nicht ganz auf dem gleichen Niveau.

KI-Tweet

Aber eine noch interessantere Möglichkeit spielt auch eine Rolle: KI-Kannibalismus.

Das Web wird jetzt mit Text und Bildern überflutet, und diese synthetischen Daten werden als Daten zum Trainieren von KIs ausgewertet, was zu einer negativen Rückkopplungsschleife führt. Je mehr KI-Daten ein Modell aufnimmt, desto schlechter ist die Ausgabe im Hinblick auf Konsistenz und Qualität. Es ist ein bisschen wie das, was passiert, wenn man eine Fotokopie von einer Fotokopie macht und das Bild allmählich schlechter wird.

Während die offiziellen GPT-4-Trainingsdaten im September 2021 enden, wissen sie eindeutig viel mehr als das, und OpenAI hat kürzlich sein Plugin abgeschaltet.

Eine neue Arbeit von Wissenschaftlern der Rice University und der Stanford University hat ein schönes Akronym für das Problem gefunden: oder MAD.

„Unsere wichtigste Schlussfolgerung in allen Szenarien ist, dass zukünftige generative Modelle ohne ausreichend frische reale Daten in jeder Generation einer autophagischen Schleife dazu verdammt sind, dass ihre Qualität (Genauigkeit) oder Vielfalt (Erinnerung) allmählich abnimmt“, sagten sie.

Im Wesentlichen beginnen Modelle damit, die einzigartigsten, aber am wenigsten gut repräsentierten Daten zu verlieren und ihre Ergebnisse in einem kontinuierlichen Prozess auf weniger unterschiedliche Daten zu härten. Die gute Nachricht ist, dass dies bedeutet, dass KIs jetzt einen Grund haben, Menschen auf dem Laufenden zu halten, wenn wir einen Weg finden, menschliche Inhalte für Modelle zu identifizieren und zu priorisieren. Dies ist einer der Pläne von OpenAI-Chef Sam Altman mit seinem bahnbrechenden Blockchain-Projekt Worldcoin.

Tom Goldstein

Ist Threads nur ein Verlustführer für das Training von KI-Modellen?

Der Twitter-Klon Threads ist ein etwas seltsamer Schachzug von Mark Zuckerberg, da er Instagram-Nutzer kannibalisiert. Die Foto-Sharing-Plattform verdient bis zu 50 Milliarden US-Dollar pro Jahr, wird aber voraussichtlich etwa ein Zehntel so viel verdienen wie Threads, selbst wenn man davon ausgeht, dass sie Twitter 100 % Marktanteil abnimmt. Alex Valaitis von Big Brain Daily prognostiziert, dass es innerhalb von 12 Monaten entweder geschlossen oder wieder in Instagram integriert wird, und sagt, dass der wahre Grund für die Einführung jetzt darin bestand, „mehr Textinhalte zu haben, um Vorbilder zu trainieren. ‚KI von Meta‘.“

ChatGPT wurde mit riesigen Mengen an Twitter-Daten trainiert, aber Elon Musk hat verschiedene unpopuläre Schritte unternommen, um dies in Zukunft zu verhindern (Erhebung von Gebühren für den API-Zugriff, Ratenbegrenzung usw.).

Zuck hat in dieser Hinsicht Form, da Metas Bilderkennungs-SEER anhand eines auf Instagram geposteten Fotos trainiert wurde. Benutzer haben dem in der Datenschutzerklärung zugestimmt, und nicht wenige lassen die Threads-App Daten über alles sammeln, von Gesundheitsdaten bis hin zu religiösen Überzeugungen und Rasse. Diese Daten werden unweigerlich zum Trainieren von KI-Modellen wie Facebooks LLaMA (Large Language Model Meta AI) verwendet. Musk hat unterdessen gerade einen Konkurrenten namens OpenAI gestartet, der Twitter-Daten für sein eigenes LLM analysieren wird.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow