Что ждет ИИ
В 2022 году ИИ стал креативным. Модели с искусственным интеллектом теперь могут создавать удивительно привлекательный текст, изображения и даже видео с небольшой подсказкой.
Прошло всего девять месяцев с тех пор, как OpenAI вызвал взрыв генеративного ИИ, выпустив DALL-E 2, модель глубокого обучения, способную создавать изображения из текстовых инструкций. За этим последовал прорыв Google и Meta: искусственный интеллект, способный создавать видео из текста. И прошло всего несколько недель с тех пор, как OpenAI выпустила ChatGPT, последнюю великолепную языковую модель, которая зажгла Интернет своим поразительным красноречием и последовательностью.
Темп инноваций в этом году был замечательным, а иногда и ошеломляющим. Кто мог это предвидеть? И как предсказать, что будет дальше?
К счастью, здесь, в MIT Technology Review, нам повезло, что у нас есть не один, а два журналиста, которые проводят весь день, каждый день, одержимо следя за всеми последними разработками в области ИИ, поэтому мы постараемся.
Здесь Уилл Дуглас Хевен и Мелисса Хейккиля рассказывают нам о четырех основных тенденциях, которые, по их мнению, будут определять ландшафт ИИ в 2023 году.
Приветствую вас, Уилл и Мелисса.
Будьте готовы к универсальным чат-ботамGPT-4 может обрабатывать не только язык
Последние несколько лет наблюдается устойчивый спад в использовании более крупных и качественных языковых моделей. Текущим событием является ChatGPT, выпущенный OpenAI в начале декабря. Этот чат-бот представляет собой обновленную и улучшенную версию GPT-3 компании, искусственного интеллекта, который начал эту волну странных языковых имитаций в 2020 году.
Но три года — это долгий срок для ИИ, и хотя ChatGPT покорил мир и вдохновил на потрясающие публикации в социальных сетях и газетные заголовки благодаря своим плавным, хотя и безумным разговорным навыкам, все внимание теперь приковано к следующему большому нововведению. : ГПТ-4. Умные деньги говорят, что 2023 год станет годом запуска следующего поколения больших языковых моделей.
Чего ожидать? Во-первых, будущие языковые модели могут быть больше, чем просто языковые модели. OpenAI заинтересован в объединении различных модальностей, таких как распознавание изображений или видео, с текстом. Мы видели это с DALL-E. Но возьмите разговорные навыки ChatGPT и смешайте их с обработкой изображений в единую модель, и вы получите нечто гораздо более универсальное и мощное. Представьте, что вы можете спросить чат-бота, что изображено на изображении, или заставить его сгенерировать изображение, и эти взаимодействия станут частью разговора, чтобы вы могли уточнить результаты более естественным образом, чем с DALL.-E.
Мы почувствовали это на примере DeepMind’s Flamingo, представленной в апреле «визуальной языковой модели», которая может отвечать на запросы об изображениях с помощью естественного языка. А затем, в мае, DeepMind анонсировала Gato, «универсальную» модель, которая была обучена с использованием тех же методов, что и большие языковые модели, для выполнения различных типов задач, от описания картинок до видеоигр, проходя через управление роботом-манипулятором.
Если GPT-4 опирается на такую технологию, ожидайте возможности лучшего языка и искусственного интеллекта (и многого другого) в одном пакете. Теоретически сочетание языковых и графических навыков может позволить ИИ следующего поколения лучше понимать и то, и другое. И это будет не только OpenAI. Ожидайте, что другие крупные лаборатории, особенно DeepMind, будут продвигать мультимодальные модели в следующем году.
Но, конечно, есть и обратная сторона. Языковые модели следующего поколения унаследуют большинство проблем того поколения, таких как неспособность отличить факты от вымысла и склонность к предвзятости. Более совершенные языковые модели сделают доверие к разным типам средств массовой информации еще труднее, чем когда-либо. И поскольку никто не придумал, как обучать модели на данных, полученных из Интернета, не впитывая худшее из того, что может предложить Интернет, они
![Что ждет ИИ](https://wp.technologyreview.com/wp-content/uploads/2022/12/Future-AI-1a.jpeg?resize=1200,600)
В 2022 году ИИ стал креативным. Модели с искусственным интеллектом теперь могут создавать удивительно привлекательный текст, изображения и даже видео с небольшой подсказкой.
Прошло всего девять месяцев с тех пор, как OpenAI вызвал взрыв генеративного ИИ, выпустив DALL-E 2, модель глубокого обучения, способную создавать изображения из текстовых инструкций. За этим последовал прорыв Google и Meta: искусственный интеллект, способный создавать видео из текста. И прошло всего несколько недель с тех пор, как OpenAI выпустила ChatGPT, последнюю великолепную языковую модель, которая зажгла Интернет своим поразительным красноречием и последовательностью.
Темп инноваций в этом году был замечательным, а иногда и ошеломляющим. Кто мог это предвидеть? И как предсказать, что будет дальше?
К счастью, здесь, в MIT Technology Review, нам повезло, что у нас есть не один, а два журналиста, которые проводят весь день, каждый день, одержимо следя за всеми последними разработками в области ИИ, поэтому мы постараемся.
Здесь Уилл Дуглас Хевен и Мелисса Хейккиля рассказывают нам о четырех основных тенденциях, которые, по их мнению, будут определять ландшафт ИИ в 2023 году.
Приветствую вас, Уилл и Мелисса.
Будьте готовы к универсальным чат-ботамGPT-4 может обрабатывать не только язык
Последние несколько лет наблюдается устойчивый спад в использовании более крупных и качественных языковых моделей. Текущим событием является ChatGPT, выпущенный OpenAI в начале декабря. Этот чат-бот представляет собой обновленную и улучшенную версию GPT-3 компании, искусственного интеллекта, который начал эту волну странных языковых имитаций в 2020 году.
Но три года — это долгий срок для ИИ, и хотя ChatGPT покорил мир и вдохновил на потрясающие публикации в социальных сетях и газетные заголовки благодаря своим плавным, хотя и безумным разговорным навыкам, все внимание теперь приковано к следующему большому нововведению. : ГПТ-4. Умные деньги говорят, что 2023 год станет годом запуска следующего поколения больших языковых моделей.
Чего ожидать? Во-первых, будущие языковые модели могут быть больше, чем просто языковые модели. OpenAI заинтересован в объединении различных модальностей, таких как распознавание изображений или видео, с текстом. Мы видели это с DALL-E. Но возьмите разговорные навыки ChatGPT и смешайте их с обработкой изображений в единую модель, и вы получите нечто гораздо более универсальное и мощное. Представьте, что вы можете спросить чат-бота, что изображено на изображении, или заставить его сгенерировать изображение, и эти взаимодействия станут частью разговора, чтобы вы могли уточнить результаты более естественным образом, чем с DALL.-E.
Мы почувствовали это на примере DeepMind’s Flamingo, представленной в апреле «визуальной языковой модели», которая может отвечать на запросы об изображениях с помощью естественного языка. А затем, в мае, DeepMind анонсировала Gato, «универсальную» модель, которая была обучена с использованием тех же методов, что и большие языковые модели, для выполнения различных типов задач, от описания картинок до видеоигр, проходя через управление роботом-манипулятором.
Если GPT-4 опирается на такую технологию, ожидайте возможности лучшего языка и искусственного интеллекта (и многого другого) в одном пакете. Теоретически сочетание языковых и графических навыков может позволить ИИ следующего поколения лучше понимать и то, и другое. И это будет не только OpenAI. Ожидайте, что другие крупные лаборатории, особенно DeepMind, будут продвигать мультимодальные модели в следующем году.
Но, конечно, есть и обратная сторона. Языковые модели следующего поколения унаследуют большинство проблем того поколения, таких как неспособность отличить факты от вымысла и склонность к предвзятости. Более совершенные языковые модели сделают доверие к разным типам средств массовой информации еще труднее, чем когда-либо. И поскольку никто не придумал, как обучать модели на данных, полученных из Интернета, не впитывая худшее из того, что может предложить Интернет, они
What's Your Reaction?
![like](https://vidianews.com/assets/img/reactions/like.png)
![dislike](https://vidianews.com/assets/img/reactions/dislike.png)
![love](https://vidianews.com/assets/img/reactions/love.png)
![funny](https://vidianews.com/assets/img/reactions/funny.png)
![angry](https://vidianews.com/assets/img/reactions/angry.png)
![sad](https://vidianews.com/assets/img/reactions/sad.png)
![wow](https://vidianews.com/assets/img/reactions/wow.png)