Что ждет ИИ

В 2022 году ИИ стал креативным. Модели с искусственным интеллектом теперь могут создавать удивительно привлекательный текст, изображения и даже видео с небольшой подсказкой.

Прошло всего девять месяцев с тех пор, как OpenAI вызвал взрыв генеративного ИИ, выпустив DALL-E 2, модель глубокого обучения, способную создавать изображения из текстовых инструкций. За этим последовал прорыв Google и Meta: искусственный интеллект, способный создавать видео из текста. И прошло всего несколько недель с тех пор, как OpenAI выпустила ChatGPT, последнюю великолепную языковую модель, которая зажгла Интернет своим поразительным красноречием и последовательностью.

Темп инноваций в этом году был замечательным, а иногда и ошеломляющим. Кто мог это предвидеть? И как предсказать, что будет дальше?

К счастью, здесь, в MIT Technology Review, нам повезло, что у нас есть не один, а два журналиста, которые проводят весь день, каждый день, одержимо следя за всеми последними разработками в области ИИ, поэтому мы постараемся.

Здесь Уилл Дуглас Хевен и Мелисса Хейккиля рассказывают нам о четырех основных тенденциях, которые, по их мнению, будут определять ландшафт ИИ в 2023 году.

Приветствую вас, Уилл и Мелисса.
Будьте готовы к универсальным чат-ботам
GPT-4 может обрабатывать не только язык

Последние несколько лет наблюдается устойчивый спад в использовании более крупных и качественных языковых моделей. Текущим событием является ChatGPT, выпущенный OpenAI в начале декабря. Этот чат-бот представляет собой обновленную и улучшенную версию GPT-3 компании, искусственного интеллекта, который начал эту волну странных языковых имитаций в 2020 году.

Но три года — это долгий срок для ИИ, и хотя ChatGPT покорил мир и вдохновил на потрясающие публикации в социальных сетях и газетные заголовки благодаря своим плавным, хотя и безумным разговорным навыкам, все внимание теперь приковано к следующему большому нововведению. : ГПТ-4. Умные деньги говорят, что 2023 год станет годом запуска следующего поколения больших языковых моделей.

Чего ожидать? Во-первых, будущие языковые модели могут быть больше, чем просто языковые модели. OpenAI заинтересован в объединении различных модальностей, таких как распознавание изображений или видео, с текстом. Мы видели это с DALL-E. Но возьмите разговорные навыки ChatGPT и смешайте их с обработкой изображений в единую модель, и вы получите нечто гораздо более универсальное и мощное. Представьте, что вы можете спросить чат-бота, что изображено на изображении, или заставить его сгенерировать изображение, и эти взаимодействия станут частью разговора, чтобы вы могли уточнить результаты более естественным образом, чем с DALL.-E.

Мы почувствовали это на примере DeepMind’s Flamingo, представленной в апреле «визуальной языковой модели», которая может отвечать на запросы об изображениях с помощью естественного языка. А затем, в мае, DeepMind анонсировала Gato, «универсальную» модель, которая была обучена с использованием тех же методов, что и большие языковые модели, для выполнения различных типов задач, от описания картинок до видеоигр, проходя через управление роботом-манипулятором.

Если GPT-4 опирается на такую технологию, ожидайте возможности лучшего языка и искусственного интеллекта (и многого другого) в одном пакете. Теоретически сочетание языковых и графических навыков может позволить ИИ следующего поколения лучше понимать и то, и другое. И это будет не только OpenAI. Ожидайте, что другие крупные лаборатории, особенно DeepMind, будут продвигать мультимодальные модели в следующем году.

Но, конечно, есть и обратная сторона. Языковые модели следующего поколения унаследуют большинство проблем того поколения, таких как неспособность отличить факты от вымысла и склонность к предвзятости. Более совершенные языковые модели сделают доверие к разным типам средств массовой информации еще труднее, чем когда-либо. И поскольку никто не придумал, как обучать модели на данных, полученных из Интернета, не впитывая худшее из того, что может предложить Интернет, они

Технологии Dec 24, 2022 0 37 Add to Reading List

В 2022 году ИИ стал креативным. Модели с искусственным интеллектом теперь могут создавать удивительно привлекательный текст, изображения и даже видео с небольшой подсказкой.

Прошло всего девять месяцев с тех пор, как OpenAI вызвал взрыв генеративного ИИ, выпустив DALL-E 2, модель глубокого обучения, способную создавать изображения из текстовых инструкций. За этим последовал прорыв Google и Meta: искусственный интеллект, способный создавать видео из текста. И прошло всего несколько недель с тех пор, как OpenAI выпустила ChatGPT, последнюю великолепную языковую модель, которая зажгла Интернет своим поразительным красноречием и последовательностью.

Темп инноваций в этом году был замечательным, а иногда и ошеломляющим. Кто мог это предвидеть? И как предсказать, что будет дальше?

К счастью, здесь, в MIT Technology Review, нам повезло, что у нас есть не один, а два журналиста, которые проводят весь день, каждый день, одержимо следя за всеми последними разработками в области ИИ, поэтому мы постараемся.

Здесь Уилл Дуглас Хевен и Мелисса Хейккиля рассказывают нам о четырех основных тенденциях, которые, по их мнению, будут определять ландшафт ИИ в 2023 году.

Приветствую вас, Уилл и Мелисса.

Будьте готовы к универсальным чат-ботам

GPT-4 может обрабатывать не только язык

Последние несколько лет наблюдается устойчивый спад в использовании более крупных и качественных языковых моделей. Текущим событием является ChatGPT, выпущенный OpenAI в начале декабря. Этот чат-бот представляет собой обновленную и улучшенную версию GPT-3 компании, искусственного интеллекта, который начал эту волну странных языковых имитаций в 2020 году.

Но три года — это долгий срок для ИИ, и хотя ChatGPT покорил мир и вдохновил на потрясающие публикации в социальных сетях и газетные заголовки благодаря своим плавным, хотя и безумным разговорным навыкам, все внимание теперь приковано к следующему большому нововведению. : ГПТ-4. Умные деньги говорят, что 2023 год станет годом запуска следующего поколения больших языковых моделей.

Чего ожидать? Во-первых, будущие языковые модели могут быть больше, чем просто языковые модели. OpenAI заинтересован в объединении различных модальностей, таких как распознавание изображений или видео, с текстом. Мы видели это с DALL-E. Но возьмите разговорные навыки ChatGPT и смешайте их с обработкой изображений в единую модель, и вы получите нечто гораздо более универсальное и мощное. Представьте, что вы можете спросить чат-бота, что изображено на изображении, или заставить его сгенерировать изображение, и эти взаимодействия станут частью разговора, чтобы вы могли уточнить результаты более естественным образом, чем с DALL.-E.

Мы почувствовали это на примере DeepMind’s Flamingo, представленной в апреле «визуальной языковой модели», которая может отвечать на запросы об изображениях с помощью естественного языка. А затем, в мае, DeepMind анонсировала Gato, «универсальную» модель, которая была обучена с использованием тех же методов, что и большие языковые модели, для выполнения различных типов задач, от описания картинок до видеоигр, проходя через управление роботом-манипулятором.

Если GPT-4 опирается на такую технологию, ожидайте возможности лучшего языка и искусственного интеллекта (и многого другого) в одном пакете. Теоретически сочетание языковых и графических навыков может позволить ИИ следующего поколения лучше понимать и то, и другое. И это будет не только OpenAI. Ожидайте, что другие крупные лаборатории, особенно DeepMind, будут продвигать мультимодальные модели в следующем году.

Но, конечно, есть и обратная сторона. Языковые модели следующего поколения унаследуют большинство проблем того поколения, таких как неспособность отличить факты от вымысла и склонность к предвзятости. Более совершенные языковые модели сделают доверие к разным типам средств массовой информации еще труднее, чем когда-либо. И поскольку никто не придумал, как обучать модели на данных, полученных из Интернета, не впитывая худшее из того, что может предложить Интернет, они