Позвольте показать вам, как работает GPT - Использование Джейн Остин

Сердцем программы искусственного интеллекта, такой как ChatGPT, является то, что называется большой языковой моделью: алгоритм, имитирующий форму письменного языка.
Хотя внутренняя работа этих алгоритмов общеизвестно непрозрачна, основная идея, стоящая за ними, на удивление проста. Они тренируются, прокручивая горы интернет-текста, многократно угадывая следующие буквы, а затем сравнивая себя с реальным текстом.
Чтобы показать вам, как выглядит этот процесс, мы с нуля обучили шесть небольших языковых моделей. Мы выбрали один, обученный полному собранию сочинений Джейн Остин, но вы можете выбрать другой путь, выбрав вариант ниже. (И вы можете передумать позже.)
Перед тренировкой: тарабарщина
Изначально BabyGPT выдает такой текст:

1/10
"Вы должны решить для себя", сказала Элизабет
Самые большие языковые модели обучаются на более чем терабайте интернет-текста, содержащего сотни миллиардов слов. Их обучение стоит миллионы долларов и включает вычисления, которые занимают недели или даже месяцы на сотнях специализированных компьютеров.

BabyGPT по сравнению с ним размером с муравья. Мы обучали его около часа на ноутбуке, используя всего несколько мегабайт текста — достаточно маленького, чтобы его можно было прикрепить к электронному письму.

В отличие от более крупных моделей, которые начинают обучение с большим словарным запасом, BabyGPT еще не знает слов. Он делает свои предположения по одной букве за раз, что немного облегчает нам понимание того, что он изучает.

Первоначально его догадки совершенно случайны и включают в себя множество специальных символов: «?kZhc,TK996») был бы отличным паролем, но это далеко не что-то похожее на Джейн Остин или Шекспира. BabyGPT еще предстоит узнать, какие буквы обычно используются в английском языке или какие слова вообще существуют.

Именно так обычно начинаются языковые модели: они угадывают наугад и производят тарабарщину. Но они учатся на своих ошибках, и со временем их догадки улучшаются. В течение многих, многих циклов обучения языковые модели могут научиться писать. Они изучают статистические модели, которые объединяют слова в предложения и абзацы.
После 250 оборотов: английские буквы
После 250 циклов обучения — около 30 секунд обработки на современном ноутбуке — BabyGPT выучил азбуку и начал болтать:

1/10
"Вы должны решить для себя", сказала Элизабет
В частности, наша модель узнала, какие буквы чаще всего используются в тексте. Вы будете часто встречать букву «е», потому что это самая распространенная буква в английском языке.

Если вы присмотритесь, то обнаружите, что он также выучил несколько словечек: я, кому, вам и т. д.

У него небольшой словарный запас, но это не мешает ему изобретать такие слова, как alingedimpe, ratlabus и mandiered.

Очевидно, что эти предположения невелики. Но — и это ключ к тому, как языковая модель обучается — BabyGPT ведет точную оценку серьезности своих догадок.

С каждым раундом формирования он просматривает исходный текст, по несколько слов за раз, и сравнивает свои догадки относительно следующей буквы с тем, что на самом деле следует дальше. Затем он вычисляет оценку, называемую «потери», которая измеряет разницу между его прогнозами и фактическим текстом. Потеря нуля будет означать, что его догадки по-прежнему правильно соответствуют следующей букве. Чем ниже потери, тем ближе его догадки к тексту.

Технологии Apr 28, 2023 0 42 Add to Reading List

Позвольте показать вам, как работает GPT - Использование Джейн Остин

Сердцем программы искусственного интеллекта, такой как ChatGPT, является то, что называется большой языковой моделью: алгоритм, имитирующий форму письменного языка.

Хотя внутренняя работа этих алгоритмов общеизвестно непрозрачна, основная идея, стоящая за ними, на удивление проста. Они тренируются, прокручивая горы интернет-текста, многократно угадывая следующие буквы, а затем сравнивая себя с реальным текстом.

Чтобы показать вам, как выглядит этот процесс, мы с нуля обучили шесть небольших языковых моделей. Мы выбрали один, обученный полному собранию сочинений Джейн Остин, но вы можете выбрать другой путь, выбрав вариант ниже. (И вы можете передумать позже.)

Перед тренировкой: тарабарщина

Изначально BabyGPT выдает такой текст:

1/10

"Вы должны решить для себя", сказала Элизабет

Самые большие языковые модели обучаются на более чем терабайте интернет-текста, содержащего сотни миллиардов слов. Их обучение стоит миллионы долларов и включает вычисления, которые занимают недели или даже месяцы на сотнях специализированных компьютеров.

BabyGPT по сравнению с ним размером с муравья. Мы обучали его около часа на ноутбуке, используя всего несколько мегабайт текста — достаточно маленького, чтобы его можно было прикрепить к электронному письму.

В отличие от более крупных моделей, которые начинают обучение с большим словарным запасом, BabyGPT еще не знает слов. Он делает свои предположения по одной букве за раз, что немного облегчает нам понимание того, что он изучает.

Первоначально его догадки совершенно случайны и включают в себя множество специальных символов: «?kZhc,TK996») был бы отличным паролем, но это далеко не что-то похожее на Джейн Остин или Шекспира. BabyGPT еще предстоит узнать, какие буквы обычно используются в английском языке или какие слова вообще существуют.

Именно так обычно начинаются языковые модели: они угадывают наугад и производят тарабарщину. Но они учатся на своих ошибках, и со временем их догадки улучшаются. В течение многих, многих циклов обучения языковые модели могут научиться писать. Они изучают статистические модели, которые объединяют слова в предложения и абзацы.

После 250 оборотов: английские буквы

После 250 циклов обучения — около 30 секунд обработки на современном ноутбуке — BabyGPT выучил азбуку и начал болтать:

1/10

"Вы должны решить для себя", сказала Элизабет

В частности, наша модель узнала, какие буквы чаще всего используются в тексте. Вы будете часто встречать букву «е», потому что это самая распространенная буква в английском языке.

Если вы присмотритесь, то обнаружите, что он также выучил несколько словечек: я, кому, вам и т. д.

У него небольшой словарный запас, но это не мешает ему изобретать такие слова, как alingedimpe, ratlabus и mandiered.

Очевидно, что эти предположения невелики. Но — и это ключ к тому, как языковая модель обучается — BabyGPT ведет точную оценку серьезности своих догадок.

С каждым раундом формирования он просматривает исходный текст, по несколько слов за раз, и сравнивает свои догадки относительно следующей буквы с тем, что на самом деле следует дальше. Затем он вычисляет оценку, называемую «потери», которая измеряет разницу между его прогнозами и фактическим текстом. Потеря нуля будет означать, что его догадки по-прежнему правильно соответствуют следующей букве. Чем ниже потери, тем ближе его догадки к тексту.