Будьте готовы к следующему поколению ИИ

Чтобы получать алгоритм в свой почтовый ящик каждый понедельник, зарегистрируйтесь здесь.

Добро пожаловать в алгоритм!

У кого-нибудь еще есть головокружение? Так же, как сообщество ИИ сосредоточилось на удивительных достижениях в системах преобразования текста в изображение, мы уже движемся к следующему рубежу: преобразование текста в видео.

В конце прошлой недели компания Meta представила Make-A-Video — искусственный интеллект, который создает пятисекундные видеоролики из текстовых подсказок.

Созданная на основе наборов данных с открытым исходным кодом, Make-A-Video позволяет вам вводить строку слов, например "Собака в костюме супергероя с красным плащом, летящая по небу", а затем создает клип, который, хотя и достаточно точный, имеет эстетику трипового старого домашнего видео.

Эта разработка представляет собой прорыв в области генеративного ИИ, который также поднимает сложные этические вопросы. Создание видео из текстовых подсказок намного сложнее и дороже, чем создание изображений, и впечатляет, что Meta нашла способ сделать это так быстро. Но по мере развития технологии есть опасения, что она будет использоваться как мощный инструмент для создания и распространения дезинформации. Мою историю об этом можно прочитать здесь.

Однако всего через несколько дней после анонса система Meta уже начинает выглядеть несколько примитивно. Это одна из многих моделей преобразования текста в видео, представленных в статьях на одну из ведущих конференций по искусственному интеллекту — Международную конференцию по представлениям обучения.

Другой, называемый Phenaki, еще более продвинутый.

Он может создавать видео из неподвижного изображения и подсказки, а не только текстовой подсказки. Он также может создавать гораздо более длинные клипы: пользователи могут создавать многоминутные видеоролики на основе нескольких различных подсказок, которые формируют сценарий видео. (Например: «Фотореалистичный плюшевый мишка плавает в океане в Сан-Франциско. Плюшевый мишка уходит под воду. Плюшевый мишка продолжает плавать под водой с разноцветными рыбками. Панда плавает под водой».)

Видео, созданное Phenaki.
Такая технология может революционизировать кино и анимацию. Честно говоря, удивительно, как быстро это произошло. DALL-E был запущен в прошлом году. Это одновременно чрезвычайно волнующе и немного пугающе — думать о том, где мы будем к этому времени в следующем году.

Исследователи Google также представили на конференцию доклад о своей новой модели DreamFusion, которая генерирует трехмерные изображения из текстовых подсказок. 3D-модели можно просматривать под любым углом, можно менять освещение, модель можно погружать в любую 3D-среду.

Не ждите, что сможете играть с этими моделями в ближайшее время. Meta еще не выпускает Make-A-Video для широкой публики. Это хорошая вещь. Модель Meta обучается с использованием того же набора данных изображений с открытым исходным кодом, который использовался в Stable Diffusion. Компания заявляет, что отфильтровала токсичный язык и изображения NSFW, но это не гарантирует, что она уловит все нюансы человеческого раздражения, когда наборы данных состоят из миллионов и миллионов образцов. И у компании, мягко говоря, нет исключительных достижений в снижении ущерба от систем, которые она создает.

Создатели Pheraki пишут в своей статье, что, хотя видео, созданные их моделью, еще не отличимы по качеству от реальных видео, это "в пределах возможного даже сегодня". Создатели моделей говорят, что перед выпуском своей модели они хотят лучше понять данные, подсказки и результаты фильтрации и измерить предвзятость, чтобы уменьшить вред.

Узнавать, что происходит в Интернете, становится все труднее и труднее, а искусственный интеллект для видео открывает множество уникальных опасностей, которых нет в аудио и изображениях, например перспективу создания дипфейков с турбонаддувом. Такие платформы, как TikTok и Instagram, уже

Технологии Oct 5, 2022 0 47 Add to Reading List

Чтобы получать алгоритм в свой почтовый ящик каждый понедельник, зарегистрируйтесь здесь.

Добро пожаловать в алгоритм!

У кого-нибудь еще есть головокружение? Так же, как сообщество ИИ сосредоточилось на удивительных достижениях в системах преобразования текста в изображение, мы уже движемся к следующему рубежу: преобразование текста в видео.

В конце прошлой недели компания Meta представила Make-A-Video — искусственный интеллект, который создает пятисекундные видеоролики из текстовых подсказок.

Созданная на основе наборов данных с открытым исходным кодом, Make-A-Video позволяет вам вводить строку слов, например "Собака в костюме супергероя с красным плащом, летящая по небу", а затем создает клип, который, хотя и достаточно точный, имеет эстетику трипового старого домашнего видео.

Эта разработка представляет собой прорыв в области генеративного ИИ, который также поднимает сложные этические вопросы. Создание видео из текстовых подсказок намного сложнее и дороже, чем создание изображений, и впечатляет, что Meta нашла способ сделать это так быстро. Но по мере развития технологии есть опасения, что она будет использоваться как мощный инструмент для создания и распространения дезинформации. Мою историю об этом можно прочитать здесь.

Однако всего через несколько дней после анонса система Meta уже начинает выглядеть несколько примитивно. Это одна из многих моделей преобразования текста в видео, представленных в статьях на одну из ведущих конференций по искусственному интеллекту — Международную конференцию по представлениям обучения.

Другой, называемый Phenaki, еще более продвинутый.

Он может создавать видео из неподвижного изображения и подсказки, а не только текстовой подсказки. Он также может создавать гораздо более длинные клипы: пользователи могут создавать многоминутные видеоролики на основе нескольких различных подсказок, которые формируют сценарий видео. (Например: «Фотореалистичный плюшевый мишка плавает в океане в Сан-Франциско. Плюшевый мишка уходит под воду. Плюшевый мишка продолжает плавать под водой с разноцветными рыбками. Панда плавает под водой».)

Такая технология может революционизировать кино и анимацию. Честно говоря, удивительно, как быстро это произошло. DALL-E был запущен в прошлом году. Это одновременно чрезвычайно волнующе и немного пугающе — думать о том, где мы будем к этому времени в следующем году.

Исследователи Google также представили на конференцию доклад о своей новой модели DreamFusion, которая генерирует трехмерные изображения из текстовых подсказок. 3D-модели можно просматривать под любым углом, можно менять освещение, модель можно погружать в любую 3D-среду.

Не ждите, что сможете играть с этими моделями в ближайшее время. Meta еще не выпускает Make-A-Video для широкой публики. Это хорошая вещь. Модель Meta обучается с использованием того же набора данных изображений с открытым исходным кодом, который использовался в Stable Diffusion. Компания заявляет, что отфильтровала токсичный язык и изображения NSFW, но это не гарантирует, что она уловит все нюансы человеческого раздражения, когда наборы данных состоят из миллионов и миллионов образцов. И у компании, мягко говоря, нет исключительных достижений в снижении ущерба от систем, которые она создает.

Создатели Pheraki пишут в своей статье, что, хотя видео, созданные их моделью, еще не отличимы по качеству от реальных видео, это "в пределах возможного даже сегодня". Создатели моделей говорят, что перед выпуском своей модели они хотят лучше понять данные, подсказки и результаты фильтрации и измерить предвзятость, чтобы уменьшить вред.

Узнавать, что происходит в Интернете, становится все труднее и труднее, а искусственный интеллект для видео открывает множество уникальных опасностей, которых нет в аудио и изображениях, например перспективу создания дипфейков с турбонаддувом. Такие платформы, как TikTok и Instagram, уже