Sind die aufkommenden Fähigkeiten großer Sprachmodelle eine Fata Morgana?

Zusammenfassung: Jüngste Arbeiten argumentieren, dass große Sprachmodelle emergente Fähigkeiten aufweisen, Fähigkeiten, die in kleineren Modellen nicht vorhanden sind, die in größeren Modellen vorhanden sind. Was emergente Fähigkeiten faszinierend macht, ist zweierlei: ihre Schärfe, die scheinbar sofort von nicht vorhanden zu vorhanden wechselt, und ihre Unvorhersehbarkeit, die in scheinbar unvorhersehbaren Modellmaßstäben erscheint. Hier stellen wir eine alternative Erklärung für emergente Fähigkeiten vor: Für eine bestimmte Aufgabe und Modellfamilie kann man bei der Analyse der festen Ergebnisse des Modells eine Metrik wählen, die zum Schluss auf eine emergente Fähigkeit führt, oder eine andere Metrik, die dies nicht tut. Daher legt unsere Alternative nahe, dass bestehende Behauptungen über emergente Fähigkeiten Schöpfungen der Analysen des Forschers sind und keine grundlegenden Änderungen des Modellverhaltens bei bestimmten groß angelegten Aufgaben. Wir präsentieren unsere Erklärung in einem einfachen mathematischen Modell und testen sie dann auf drei komplementäre Arten: Wir (1) machen, testen und bestätigen drei Vorhersagen über die Auswirkung der Metrikauswahl unter Verwendung der InstructGPT/GPT-3-Familie auf Aufgaben mit beanspruchten neuen Fähigkeiten , (2) zwei Vorhersagen über metrische Entscheidungen in einer Metaanalyse zu neuen Fähigkeiten auf BIG-Bench treffen, testen und bestätigen; und (3) zeigen, wie ähnliche metrische Entscheidungen auf offensichtliche neue Fähigkeiten bei Vision-Aufgaben in verschiedenen Deep-Network-Architekturen (Faltung, Autoencoder, Transformatoren) hindeuten. In allen drei Analysen finden wir starke unterstützende Beweise dafür, dass neu entstehende Fähigkeiten möglicherweise keine grundlegende Eigenschaft der Skalierung von KI-Modellen sind.

Sind die aufkommenden Fähigkeiten großer Sprachmodelle eine Fata Morgana?

Zusammenfassung: Jüngste Arbeiten argumentieren, dass große Sprachmodelle emergente Fähigkeiten aufweisen, Fähigkeiten, die in kleineren Modellen nicht vorhanden sind, die in größeren Modellen vorhanden sind. Was emergente Fähigkeiten faszinierend macht, ist zweierlei: ihre Schärfe, die scheinbar sofort von nicht vorhanden zu vorhanden wechselt, und ihre Unvorhersehbarkeit, die in scheinbar unvorhersehbaren Modellmaßstäben erscheint. Hier stellen wir eine alternative Erklärung für emergente Fähigkeiten vor: Für eine bestimmte Aufgabe und Modellfamilie kann man bei der Analyse der festen Ergebnisse des Modells eine Metrik wählen, die zum Schluss auf eine emergente Fähigkeit führt, oder eine andere Metrik, die dies nicht tut. Daher legt unsere Alternative nahe, dass bestehende Behauptungen über emergente Fähigkeiten Schöpfungen der Analysen des Forschers sind und keine grundlegenden Änderungen des Modellverhaltens bei bestimmten groß angelegten Aufgaben. Wir präsentieren unsere Erklärung in einem einfachen mathematischen Modell und testen sie dann auf drei komplementäre Arten: Wir (1) machen, testen und bestätigen drei Vorhersagen über die Auswirkung der Metrikauswahl unter Verwendung der InstructGPT/GPT-3-Familie auf Aufgaben mit beanspruchten neuen Fähigkeiten , (2) zwei Vorhersagen über metrische Entscheidungen in einer Metaanalyse zu neuen Fähigkeiten auf BIG-Bench treffen, testen und bestätigen; und (3) zeigen, wie ähnliche metrische Entscheidungen auf offensichtliche neue Fähigkeiten bei Vision-Aufgaben in verschiedenen Deep-Network-Architekturen (Faltung, Autoencoder, Transformatoren) hindeuten. In allen drei Analysen finden wir starke unterstützende Beweise dafür, dass neu entstehende Fähigkeiten möglicherweise keine grundlegende Eigenschaft der Skalierung von KI-Modellen sind.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow