Lassen Sie uns Ihnen zeigen, wie GPT funktioniert – mit Jane Austen

Das Herzstück eines KI-Programms wie ChatGPT ist ein sogenanntes Grand Language Model: ein Algorithmus, der die Form der geschriebenen Sprache nachahmt.
Obwohl das Innenleben dieser Algorithmen notorisch undurchsichtig ist, ist die Grundidee dahinter überraschend einfach. Sie werden trainiert, indem sie durch Berge von Internettexten scrollen, immer wieder die nächsten Buchstaben erraten und sich dann mit der Realität vergleichen.
Um Ihnen zu zeigen, wie dieser Prozess aussieht, haben wir sechs kleine Sprachmodelle von Grund auf neu trainiert. Wir haben einen ausgewählt, der auf dem gesamten Werk von Jane Austen geschult ist, aber Sie können einen anderen Weg wählen, indem Sie unten eine Option auswählen. (Und Sie können Ihre Meinung später ändern.)
Vor dem Training: Kauderwelsch
Anfangs erzeugt BabyGPT Text wie diesen:

1/10
„Das musst du selbst entscheiden“, sagte Elizabeth
Die größten Sprachmodelle werden mit über einem Terabyte Internettext trainiert, der Hunderte Milliarden Wörter enthält. Ihre Ausbildung kostet Millionen von Dollar und beinhaltet Berechnungen, die Wochen oder sogar Monate auf Hunderten von spezialisierten Computern dauern.

BabyGPT ist im Vergleich so groß wie eine Ameise. Wir haben es etwa eine Stunde lang auf einem Laptop mit nur wenigen Megabyte Text trainiert – klein genug, um es an eine E-Mail anzuhängen.

Im Gegensatz zu größeren Models, die ihr Training mit einem großen Wortschatz beginnen, kennt BabyGPT noch keine Wörter. Er rät Buchstaben für Buchstabe, was es für uns etwas einfacher macht, zu sehen, was er lernt.

Anfangs sind seine Vermutungen völlig zufällig und beinhalten viele Sonderzeichen: „?kZhc,TK996“) wäre ein großartiges Passwort, aber es ist weit entfernt von irgendetwas, das Jane Austen oder Shakespeare ähnelt. BabyGPT muss noch lernen, welche Buchstaben im Englischen gebräuchlich sind oder welche Wörter überhaupt existieren.

So fangen Sprachmodelle normalerweise an: Sie raten zufällig und produzieren Kauderwelsch. Aber sie lernen aus ihren Fehlern und mit der Zeit verbessern sich ihre Vermutungen. Über viele, viele Trainingszyklen können Sprachmodelle schreiben lernen. Sie lernen statistische Modelle kennen, die Wörter zu Sätzen und Absätzen zusammenfügen.
Nach 250 Umdrehungen: Englische Buchstaben
Nach 250 Trainingszyklen – rund 30 Sekunden Bearbeitung auf einem modernen Laptop – hat BabyGPT sein ABC gelernt und beginnt zu plaudern:

1/10
„Das musst du selbst entscheiden“, sagte Elizabeth
Unser Modell lernte insbesondere, welche Buchstaben im Text am häufigsten verwendet werden. Sie werden häufig den Buchstaben „e“ sehen, weil er der häufigste Buchstabe im Englischen ist.

Wenn Sie genau hinsehen, werden Sie feststellen, dass er auch ein paar kleine Wörter gelernt hat: ich, zu, der, Sie usw.

Er hat einen kleinen Wortschatz, aber das hindert ihn nicht daran, Wörter wie alingedimpe, ratlabus und mandired zu erfinden.

Offensichtlich sind diese Annahmen nicht groß. Aber – und das ist der Schlüssel dazu, wie ein Sprachmodell lernt – BabyGPT führt eine genaue Bewertung der Schwere seiner Vermutungen durch.

Bei jeder Formationsrunde geht er den Originaltext Wort für Wort durch und vergleicht seine Vermutungen für den nächsten Buchstaben mit dem, was als nächstes kommt. Es berechnet dann eine Punktzahl, die als "Verlust" bezeichnet wird und die Differenz zwischen seinen Vorhersagen und dem tatsächlichen Text misst. Ein Verlust von Null würde bedeuten, dass seine Vermutungen immer noch richtig mit dem nächsten Buchstaben übereinstimmten. Je geringer der Verlust, desto näher liegen die Schätzungen am Text.

Technologie Apr 28, 2023 0 23 Add to Reading List

Lassen Sie uns Ihnen zeigen, wie GPT funktioniert – mit Jane Austen

Das Herzstück eines KI-Programms wie ChatGPT ist ein sogenanntes Grand Language Model: ein Algorithmus, der die Form der geschriebenen Sprache nachahmt.

Obwohl das Innenleben dieser Algorithmen notorisch undurchsichtig ist, ist die Grundidee dahinter überraschend einfach. Sie werden trainiert, indem sie durch Berge von Internettexten scrollen, immer wieder die nächsten Buchstaben erraten und sich dann mit der Realität vergleichen.

Um Ihnen zu zeigen, wie dieser Prozess aussieht, haben wir sechs kleine Sprachmodelle von Grund auf neu trainiert. Wir haben einen ausgewählt, der auf dem gesamten Werk von Jane Austen geschult ist, aber Sie können einen anderen Weg wählen, indem Sie unten eine Option auswählen. (Und Sie können Ihre Meinung später ändern.)

Vor dem Training: Kauderwelsch

Anfangs erzeugt BabyGPT Text wie diesen:

1/10

„Das musst du selbst entscheiden“, sagte Elizabeth

Die größten Sprachmodelle werden mit über einem Terabyte Internettext trainiert, der Hunderte Milliarden Wörter enthält. Ihre Ausbildung kostet Millionen von Dollar und beinhaltet Berechnungen, die Wochen oder sogar Monate auf Hunderten von spezialisierten Computern dauern.

BabyGPT ist im Vergleich so groß wie eine Ameise. Wir haben es etwa eine Stunde lang auf einem Laptop mit nur wenigen Megabyte Text trainiert – klein genug, um es an eine E-Mail anzuhängen.

Im Gegensatz zu größeren Models, die ihr Training mit einem großen Wortschatz beginnen, kennt BabyGPT noch keine Wörter. Er rät Buchstaben für Buchstabe, was es für uns etwas einfacher macht, zu sehen, was er lernt.

Anfangs sind seine Vermutungen völlig zufällig und beinhalten viele Sonderzeichen: „?kZhc,TK996“) wäre ein großartiges Passwort, aber es ist weit entfernt von irgendetwas, das Jane Austen oder Shakespeare ähnelt. BabyGPT muss noch lernen, welche Buchstaben im Englischen gebräuchlich sind oder welche Wörter überhaupt existieren.

So fangen Sprachmodelle normalerweise an: Sie raten zufällig und produzieren Kauderwelsch. Aber sie lernen aus ihren Fehlern und mit der Zeit verbessern sich ihre Vermutungen. Über viele, viele Trainingszyklen können Sprachmodelle schreiben lernen. Sie lernen statistische Modelle kennen, die Wörter zu Sätzen und Absätzen zusammenfügen.

Nach 250 Umdrehungen: Englische Buchstaben

Nach 250 Trainingszyklen – rund 30 Sekunden Bearbeitung auf einem modernen Laptop – hat BabyGPT sein ABC gelernt und beginnt zu plaudern:

1/10

„Das musst du selbst entscheiden“, sagte Elizabeth

Unser Modell lernte insbesondere, welche Buchstaben im Text am häufigsten verwendet werden. Sie werden häufig den Buchstaben „e“ sehen, weil er der häufigste Buchstabe im Englischen ist.

Wenn Sie genau hinsehen, werden Sie feststellen, dass er auch ein paar kleine Wörter gelernt hat: ich, zu, der, Sie usw.

Er hat einen kleinen Wortschatz, aber das hindert ihn nicht daran, Wörter wie alingedimpe, ratlabus und mandired zu erfinden.

Offensichtlich sind diese Annahmen nicht groß. Aber – und das ist der Schlüssel dazu, wie ein Sprachmodell lernt – BabyGPT führt eine genaue Bewertung der Schwere seiner Vermutungen durch.

Bei jeder Formationsrunde geht er den Originaltext Wort für Wort durch und vergleicht seine Vermutungen für den nächsten Buchstaben mit dem, was als nächstes kommt. Es berechnet dann eine Punktzahl, die als "Verlust" bezeichnet wird und die Differenz zwischen seinen Vorhersagen und dem tatsächlichen Text misst. Ein Verlust von Null würde bedeuten, dass seine Vermutungen immer noch richtig mit dem nächsten Buchstaben übereinstimmten. Je geringer der Verlust, desto näher liegen die Schätzungen am Text.