Что ждет ИИ

В 2022 году ИИ стал креативным. Модели с искусственным интеллектом теперь могут создавать удивительно привлекательный текст, изображения и даже видео с небольшой подсказкой.

Прошло всего девять месяцев с тех пор, как OpenAI вызвал взрыв генеративного ИИ, выпустив DALL-E 2, модель глубокого обучения, способную создавать изображения из текстовых инструкций. За этим последовал прорыв Google и Meta: искусственный интеллект, способный создавать видео из текста. И прошло всего несколько недель с тех пор, как OpenAI выпустила ChatGPT, последнюю великолепную языковую модель, которая зажгла Интернет своим поразительным красноречием и последовательностью.

Темп инноваций в этом году был замечательным, а иногда и ошеломляющим. Кто мог это предвидеть? И как предсказать, что будет дальше?

К счастью, здесь, в MIT Technology Review, нам повезло, что у нас есть не один, а два журналиста, которые проводят весь день, каждый день, одержимо следя за всеми последними разработками в области ИИ, поэтому мы постараемся.

Здесь Уилл Дуглас Хевен и Мелисса Хейккиля рассказывают нам о четырех основных тенденциях, которые, по их мнению, будут определять ландшафт ИИ в 2023 году.

Приветствую вас, Уилл и Мелисса.

Будьте готовы к универсальным чат-ботам

GPT-4 может обрабатывать не только язык

Последние несколько лет наблюдается устойчивый спад в использовании более крупных и качественных языковых моделей. Текущим событием является ChatGPT, выпущенный OpenAI в начале декабря. Этот чат-бот представляет собой обновленную и улучшенную версию GPT-3 компании, искусственного интеллекта, который начал эту волну странных языковых имитаций в 2020 году.

Но три года — это долгий срок для ИИ, и хотя ChatGPT покорил мир и вдохновил на потрясающие публикации в социальных сетях и газетные заголовки благодаря своим плавным, хотя и безумным разговорным навыкам, все внимание теперь приковано к следующему большому нововведению. : ГПТ-4. Умные деньги говорят, что 2023 год станет годом запуска следующего поколения больших языковых моделей.

Чего ожидать? Во-первых, будущие языковые модели могут быть больше, чем просто языковые модели. OpenAI заинтересован в объединении различных модальностей, таких как распознавание изображений или видео, с текстом. Мы видели это с DALL-E. Но возьмите разговорные навыки ChatGPT и смешайте их с обработкой изображений в единую модель, и вы получите нечто гораздо более универсальное и мощное. Представьте, что вы можете спросить чат-бота, что изображено на изображении, или заставить его сгенерировать изображение, и эти взаимодействия станут частью разговора, чтобы вы могли уточнить результаты более естественным образом, чем с DALL.-E.

Мы почувствовали это на примере DeepMind’s Flamingo, представленной в апреле «визуальной языковой модели», которая может отвечать на запросы об изображениях с помощью естественного языка. А затем, в мае, DeepMind анонсировала Gato, «универсальную» модель, которая была обучена с использованием тех же методов, что и большие языковые модели, для выполнения различных типов задач, от описания картинок до видеоигр, проходя через управление роботом-манипулятором.

Если GPT-4 опирается на такую ​​технологию, ожидайте возможности лучшего языка и искусственного интеллекта (и многого другого) в одном пакете. Теоретически сочетание языковых и графических навыков может позволить ИИ следующего поколения лучше понимать и то, и другое. И это будет не только OpenAI. Ожидайте, что другие крупные лаборатории, особенно DeepMind, будут продвигать мультимодальные модели в следующем году.

Но, конечно, есть и обратная сторона. Языковые модели следующего поколения унаследуют большинство проблем того поколения, таких как неспособность отличить факты от вымысла и склонность к предвзятости. Более совершенные языковые модели сделают доверие к разным типам средств массовой информации еще труднее, чем когда-либо. И поскольку никто не придумал, как обучать модели на данных, полученных из Интернета, не впитывая худшее из того, что может предложить Интернет, они

Что ждет ИИ

В 2022 году ИИ стал креативным. Модели с искусственным интеллектом теперь могут создавать удивительно привлекательный текст, изображения и даже видео с небольшой подсказкой.

Прошло всего девять месяцев с тех пор, как OpenAI вызвал взрыв генеративного ИИ, выпустив DALL-E 2, модель глубокого обучения, способную создавать изображения из текстовых инструкций. За этим последовал прорыв Google и Meta: искусственный интеллект, способный создавать видео из текста. И прошло всего несколько недель с тех пор, как OpenAI выпустила ChatGPT, последнюю великолепную языковую модель, которая зажгла Интернет своим поразительным красноречием и последовательностью.

Темп инноваций в этом году был замечательным, а иногда и ошеломляющим. Кто мог это предвидеть? И как предсказать, что будет дальше?

К счастью, здесь, в MIT Technology Review, нам повезло, что у нас есть не один, а два журналиста, которые проводят весь день, каждый день, одержимо следя за всеми последними разработками в области ИИ, поэтому мы постараемся.

Здесь Уилл Дуглас Хевен и Мелисса Хейккиля рассказывают нам о четырех основных тенденциях, которые, по их мнению, будут определять ландшафт ИИ в 2023 году.

Приветствую вас, Уилл и Мелисса.

Будьте готовы к универсальным чат-ботам

GPT-4 может обрабатывать не только язык

Последние несколько лет наблюдается устойчивый спад в использовании более крупных и качественных языковых моделей. Текущим событием является ChatGPT, выпущенный OpenAI в начале декабря. Этот чат-бот представляет собой обновленную и улучшенную версию GPT-3 компании, искусственного интеллекта, который начал эту волну странных языковых имитаций в 2020 году.

Но три года — это долгий срок для ИИ, и хотя ChatGPT покорил мир и вдохновил на потрясающие публикации в социальных сетях и газетные заголовки благодаря своим плавным, хотя и безумным разговорным навыкам, все внимание теперь приковано к следующему большому нововведению. : ГПТ-4. Умные деньги говорят, что 2023 год станет годом запуска следующего поколения больших языковых моделей.

Чего ожидать? Во-первых, будущие языковые модели могут быть больше, чем просто языковые модели. OpenAI заинтересован в объединении различных модальностей, таких как распознавание изображений или видео, с текстом. Мы видели это с DALL-E. Но возьмите разговорные навыки ChatGPT и смешайте их с обработкой изображений в единую модель, и вы получите нечто гораздо более универсальное и мощное. Представьте, что вы можете спросить чат-бота, что изображено на изображении, или заставить его сгенерировать изображение, и эти взаимодействия станут частью разговора, чтобы вы могли уточнить результаты более естественным образом, чем с DALL.-E.

Мы почувствовали это на примере DeepMind’s Flamingo, представленной в апреле «визуальной языковой модели», которая может отвечать на запросы об изображениях с помощью естественного языка. А затем, в мае, DeepMind анонсировала Gato, «универсальную» модель, которая была обучена с использованием тех же методов, что и большие языковые модели, для выполнения различных типов задач, от описания картинок до видеоигр, проходя через управление роботом-манипулятором.

Если GPT-4 опирается на такую ​​технологию, ожидайте возможности лучшего языка и искусственного интеллекта (и многого другого) в одном пакете. Теоретически сочетание языковых и графических навыков может позволить ИИ следующего поколения лучше понимать и то, и другое. И это будет не только OpenAI. Ожидайте, что другие крупные лаборатории, особенно DeepMind, будут продвигать мультимодальные модели в следующем году.

Но, конечно, есть и обратная сторона. Языковые модели следующего поколения унаследуют большинство проблем того поколения, таких как неспособность отличить факты от вымысла и склонность к предвзятости. Более совершенные языковые модели сделают доверие к разным типам средств массовой информации еще труднее, чем когда-либо. И поскольку никто не придумал, как обучать модели на данных, полученных из Интернета, не впитывая худшее из того, что может предложить Интернет, они

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow