ChatGPT везде. Вот откуда это

Объяснения Tech Review. Позвольте нашим редакторам разобраться в сложном и запутанном мире технологий, чтобы помочь вам понять, что будет дальше. Вы можете узнать больше здесь.

Мы достигли пика ChatGPT. Запущенный в декабре как веб-приложение компанией OpenAI из Сан-Франциско, чат-бот стал популярным практически за одну ночь. По некоторым оценкам, это самый быстрорастущий интернет-сервис, число пользователей которого достигло 100 миллионов в январе, всего через два месяца после его запуска. Благодаря сделке OpenAI с Microsoft на 10 миллиардов долларов эта технология теперь интегрирована в программное обеспечение Office и поисковую систему Bing. Вдохновленный своим вновь пробудившимся бывшим конкурентом в битве за поиск, Google ускоряет развертывание собственного чат-бота LaMDA. Даже моя семья в WhatsApp заполнена чатом ChatGPT.

Оглушительный успех OpenAI не возник из ниоткуда. Чат-бот — это самая совершенная итерация в линейке великолепных языковых моделей, созданных несколько лет назад. Вот как мы сюда попали.
1980–1990-е годы: рекуррентные нейронные сети
ChatGPT — это версия GPT-3, большой языковой модели, также разработанной OpenAI. Языковые модели — это тип нейронной сети, обученной на очень многих текстах. (Нейронные сети — это программное обеспечение, вдохновленное тем, как нейроны в мозге животных передают сигналы друг другу.) Поскольку текст состоит из последовательностей букв и слов разной длины, для языковых моделей требуется тип нейронной сети, способный понимать этот тип сообщений. данные. . Рекуррентные нейронные сети, изобретенные в 1980-х годах, могут обрабатывать последовательности слов, но они медленно обучаются и могут забывать предыдущие слова в последовательности.

В 1997 году ученые-компьютерщики Зепп Хохрайтер и Юрген Шмидхубер решили эту проблему, изобретя сети LSTM (долговременная кратковременная память) — рекуррентные нейронные сети со специальными компонентами, которые позволяли дольше сохранять прошлые данные во входной последовательности. LSTM могли обрабатывать текстовые строки из нескольких сотен слов, но их языковые навыки были ограничены.
2017: Трансформеры
Прорыв в создании современных языковых моделей произошел, когда группа исследователей Google изобрела трансформеры – своего рода нейронную сеть, которая может отслеживать, где в последовательности появляется каждое слово или фраза. Значение слов часто зависит от значения других слов, стоящих перед или после. Отслеживая эту контекстуальную информацию, процессоры могут управлять более длинными текстовыми строками и более точно фиксировать значение слов. Например, "хот-доги" означают совершенно разные вещи в предложениях "Хот-доги следует сильно запивать" и "Хот-доги следует есть с горчицей".
2018-2019: ГПТ и ГПТ-2
Первые две основные языковые модели OpenAI появились с разницей в несколько месяцев. Компания хочет разработать универсальный ИИ общего назначения и считает, что большие языковые модели являются ключевым шагом на пути к этой цели. GPT (сокращение от Generative Pre-trained Transformer) установил флаг, превзойдя передовые тесты для обработки естественного языка в то время.

GPT сочетает преобразователи с неконтролируемым обучением, способ обучения моделей машинного обучения на данных (в данном случае на большом количестве текста), которые не были предварительно аннотированы. Это позволяет программному обеспечению самостоятельно определять закономерности в данных, не зная, на что оно смотрит. Многие предыдущие успехи в машинном обучении основывались на обучении с учителем и аннотированных данных, но ручная маркировка данных — медленная работа и, таким образом, ограничивает размер наборов данных, доступных для обучения.

Но наибольший резонанс вызвала GPT-2. OpenAI заявила, что была настолько обеспокоена тем, что люди будут использовать GPT-2 «для создания вводящих в заблуждение, предвзятых или оскорбительных выражений», что не выпустила полную модель. Как времена меняются.
2020: ГПТ-3
GPT-2 произвел впечатление, но GPT-3, последовавшая за OpenAI, заставила отвиснуть челюсть. Его способность генерировать человекоподобный текст была большим шагом вперед. GPT-3 может отвечать на вопросы, обобщать документы, создавать истории в разных стилях, переводить с английского, французского, испанского и японского языков и т. д. Его мимика странная.

Один из самых замечательных выводов заключается в том, что преимущества GPT-3 связаны с

Технологии Feb 11, 2023 0 40 Add to Reading List

Объяснения Tech Review. Позвольте нашим редакторам разобраться в сложном и запутанном мире технологий, чтобы помочь вам понять, что будет дальше. Вы можете узнать больше здесь.

Мы достигли пика ChatGPT. Запущенный в декабре как веб-приложение компанией OpenAI из Сан-Франциско, чат-бот стал популярным практически за одну ночь. По некоторым оценкам, это самый быстрорастущий интернет-сервис, число пользователей которого достигло 100 миллионов в январе, всего через два месяца после его запуска. Благодаря сделке OpenAI с Microsoft на 10 миллиардов долларов эта технология теперь интегрирована в программное обеспечение Office и поисковую систему Bing. Вдохновленный своим вновь пробудившимся бывшим конкурентом в битве за поиск, Google ускоряет развертывание собственного чат-бота LaMDA. Даже моя семья в WhatsApp заполнена чатом ChatGPT.

Оглушительный успех OpenAI не возник из ниоткуда. Чат-бот — это самая совершенная итерация в линейке великолепных языковых моделей, созданных несколько лет назад. Вот как мы сюда попали.

1980–1990-е годы: рекуррентные нейронные сети

ChatGPT — это версия GPT-3, большой языковой модели, также разработанной OpenAI. Языковые модели — это тип нейронной сети, обученной на очень многих текстах. (Нейронные сети — это программное обеспечение, вдохновленное тем, как нейроны в мозге животных передают сигналы друг другу.) Поскольку текст состоит из последовательностей букв и слов разной длины, для языковых моделей требуется тип нейронной сети, способный понимать этот тип сообщений. данные. . Рекуррентные нейронные сети, изобретенные в 1980-х годах, могут обрабатывать последовательности слов, но они медленно обучаются и могут забывать предыдущие слова в последовательности.

В 1997 году ученые-компьютерщики Зепп Хохрайтер и Юрген Шмидхубер решили эту проблему, изобретя сети LSTM (долговременная кратковременная память) — рекуррентные нейронные сети со специальными компонентами, которые позволяли дольше сохранять прошлые данные во входной последовательности. LSTM могли обрабатывать текстовые строки из нескольких сотен слов, но их языковые навыки были ограничены.

2017: Трансформеры

Прорыв в создании современных языковых моделей произошел, когда группа исследователей Google изобрела трансформеры – своего рода нейронную сеть, которая может отслеживать, где в последовательности появляется каждое слово или фраза. Значение слов часто зависит от значения других слов, стоящих перед или после. Отслеживая эту контекстуальную информацию, процессоры могут управлять более длинными текстовыми строками и более точно фиксировать значение слов. Например, "хот-доги" означают совершенно разные вещи в предложениях "Хот-доги следует сильно запивать" и "Хот-доги следует есть с горчицей".

2018-2019: ГПТ и ГПТ-2

Первые две основные языковые модели OpenAI появились с разницей в несколько месяцев. Компания хочет разработать универсальный ИИ общего назначения и считает, что большие языковые модели являются ключевым шагом на пути к этой цели. GPT (сокращение от Generative Pre-trained Transformer) установил флаг, превзойдя передовые тесты для обработки естественного языка в то время.

GPT сочетает преобразователи с неконтролируемым обучением, способ обучения моделей машинного обучения на данных (в данном случае на большом количестве текста), которые не были предварительно аннотированы. Это позволяет программному обеспечению самостоятельно определять закономерности в данных, не зная, на что оно смотрит. Многие предыдущие успехи в машинном обучении основывались на обучении с учителем и аннотированных данных, но ручная маркировка данных — медленная работа и, таким образом, ограничивает размер наборов данных, доступных для обучения.

Но наибольший резонанс вызвала GPT-2. OpenAI заявила, что была настолько обеспокоена тем, что люди будут использовать GPT-2 «для создания вводящих в заблуждение, предвзятых или оскорбительных выражений», что не выпустила полную модель. Как времена меняются.

2020: ГПТ-3

GPT-2 произвел впечатление, но GPT-3, последовавшая за OpenAI, заставила отвиснуть челюсть. Его способность генерировать человекоподобный текст была большим шагом вперед. GPT-3 может отвечать на вопросы, обобщать документы, создавать истории в разных стилях, переводить с английского, французского, испанского и японского языков и т. д. Его мимика странная.

Один из самых замечательных выводов заключается в том, что преимущества GPT-3 связаны с