Новый искусственный интеллект Meta может превращать текстовые подсказки в видео

Сегодня компания Meta представила систему искусственного интеллекта, которая генерирует короткие видеоролики на основе текстовых подсказок.

Make-A-Video позволяет ввести строку слов, например "Собака в костюме супергероя с красным плащом, летящая по небу", а затем создать пятисекундный клип, достаточно точный, эстетика трипового старого домашнего видео.

Хотя эффект довольно грубый, система дает первое представление о том, что будет с генеративным искусственным интеллектом, и это очевидный следующий шаг для систем искусственного интеллекта с преобразованием текста в изображение, которые вызвали огромный энтузиазм в этом году.

Объявление Meta о Make-A-Video, которое еще не является общедоступным, скорее всего, побудит другие лаборатории искусственного интеллекта выпустить свои собственные версии. Это также поднимает большие этические вопросы.

Только за последний месяц лаборатория искусственного интеллекта OpenAI сделала свою новейшую систему искусственного интеллекта для синтеза изображений DALL-E доступной для всех, а стартап Stability.AI запустил Stable Diffusion, систему синтеза изображений с открытым исходным кодом. .

Но ИИ для преобразования текста в видео сопряжен с еще большими трудностями. С одной стороны, эти модели требуют больших вычислительных мощностей. Они обеспечивают даже больший вычислительный прирост, чем большие модели искусственного интеллекта, преобразующие текст в изображение, которые используют миллионы кадров для обучения, потому что для сборки одного короткого видео требуются сотни кадров. Это означает, что только крупные технологические компании могут позволить себе создавать такие системы в обозримом будущем. Их также сложнее обучать, потому что не существует масштабных наборов данных с высококачественным видео в паре с текстом.

Чтобы обойти эту проблему, Meta объединила данные из трех наборов изображений и видео с открытым исходным кодом для обучения своей модели. Стандартные наборы данных преобразования текста в изображение из помеченных неподвижных изображений помогли ИИ узнать, как называются объекты и как они выглядят. А база данных видео помогла ему понять, как эти объекты должны двигаться по миру. Сочетание этих двух подходов позволило Make-A-Video, описанному в нерецензируемой статье, опубликованной сегодня, создавать крупномасштабное видео из текста.

Танмай Гупта, исследователь компьютерного зрения из Института искусственного интеллекта Аллена, говорит, что результаты Meta многообещающие. В опубликованных видео показано, что модель может захватывать 3D-формы при вращении камеры. Модель также имеет некоторое представление о глубине и понимании освещения. Гупта говорит, что некоторые детали и движения сделаны прилично и убедительно.

Однако «есть много места для исследовательского сообщества, особенно если эти системы будут использоваться для редактирования видео и создания профессионального контента», — добавляет он. В частности, по-прежнему сложно моделировать сложные взаимодействия между объектами.

В видео, созданном с помощью подсказки "Кисть художника рисует на холсте", кисть движется по холсту, но мазки на холсте нереалистичны. «Я бы хотел, чтобы эти модели успешно генерировали последовательность взаимодействий, например: «Человек берет книгу с полки, надевает очки и садится читать ее, выпивая чашку кофе». — сказал Гупта.

Со своей стороны, Мета обещает, что технология может «открыть новые возможности для создателей и художников». Но по мере развития технологии есть опасения, что она может быть использована в качестве мощного инструмента для создания и распространения дезинформации и дипфейков. Это может еще больше затруднить различение реального и поддельного контента в Интернете.

Модель Meta поднимает ставки для генеративного ИИ как с технической, так и с творческой точки зрения, а также «с точки зрения уникального ущерба, который может быть нанесен сгенерированным видео в отличие от неподвижных изображений», – говорит Генри Эйдер, эксперт по синтетическим медиа.

"По крайней мере, сегодня для создания фактически неточного контента, которому люди могут поверить, требуются определенные усилия", – говорит Гупта. "В будущем возможно...

Технологии Sep 29, 2022 0 41 Add to Reading List

Новый искусственный интеллект Meta может превращать текстовые подсказки в видео

Сегодня компания Meta представила систему искусственного интеллекта, которая генерирует короткие видеоролики на основе текстовых подсказок.

Make-A-Video позволяет ввести строку слов, например "Собака в костюме супергероя с красным плащом, летящая по небу", а затем создать пятисекундный клип, достаточно точный, эстетика трипового старого домашнего видео.

Хотя эффект довольно грубый, система дает первое представление о том, что будет с генеративным искусственным интеллектом, и это очевидный следующий шаг для систем искусственного интеллекта с преобразованием текста в изображение, которые вызвали огромный энтузиазм в этом году.

Объявление Meta о Make-A-Video, которое еще не является общедоступным, скорее всего, побудит другие лаборатории искусственного интеллекта выпустить свои собственные версии. Это также поднимает большие этические вопросы.

Только за последний месяц лаборатория искусственного интеллекта OpenAI сделала свою новейшую систему искусственного интеллекта для синтеза изображений DALL-E доступной для всех, а стартап Stability.AI запустил Stable Diffusion, систему синтеза изображений с открытым исходным кодом. .

Но ИИ для преобразования текста в видео сопряжен с еще большими трудностями. С одной стороны, эти модели требуют больших вычислительных мощностей. Они обеспечивают даже больший вычислительный прирост, чем большие модели искусственного интеллекта, преобразующие текст в изображение, которые используют миллионы кадров для обучения, потому что для сборки одного короткого видео требуются сотни кадров. Это означает, что только крупные технологические компании могут позволить себе создавать такие системы в обозримом будущем. Их также сложнее обучать, потому что не существует масштабных наборов данных с высококачественным видео в паре с текстом.

Чтобы обойти эту проблему, Meta объединила данные из трех наборов изображений и видео с открытым исходным кодом для обучения своей модели. Стандартные наборы данных преобразования текста в изображение из помеченных неподвижных изображений помогли ИИ узнать, как называются объекты и как они выглядят. А база данных видео помогла ему понять, как эти объекты должны двигаться по миру. Сочетание этих двух подходов позволило Make-A-Video, описанному в нерецензируемой статье, опубликованной сегодня, создавать крупномасштабное видео из текста.

Танмай Гупта, исследователь компьютерного зрения из Института искусственного интеллекта Аллена, говорит, что результаты Meta многообещающие. В опубликованных видео показано, что модель может захватывать 3D-формы при вращении камеры. Модель также имеет некоторое представление о глубине и понимании освещения. Гупта говорит, что некоторые детали и движения сделаны прилично и убедительно.

Однако «есть много места для исследовательского сообщества, особенно если эти системы будут использоваться для редактирования видео и создания профессионального контента», — добавляет он. В частности, по-прежнему сложно моделировать сложные взаимодействия между объектами.

В видео, созданном с помощью подсказки "Кисть художника рисует на холсте", кисть движется по холсту, но мазки на холсте нереалистичны. «Я бы хотел, чтобы эти модели успешно генерировали последовательность взаимодействий, например: «Человек берет книгу с полки, надевает очки и садится читать ее, выпивая чашку кофе». — сказал Гупта.

Со своей стороны, Мета обещает, что технология может «открыть новые возможности для создателей и художников». Но по мере развития технологии есть опасения, что она может быть использована в качестве мощного инструмента для создания и распространения дезинформации и дипфейков. Это может еще больше затруднить различение реального и поддельного контента в Интернете.

Модель Meta поднимает ставки для генеративного ИИ как с технической, так и с творческой точки зрения, а также «с точки зрения уникального ущерба, который может быть нанесен сгенерированным видео в отличие от неподвижных изображений», – говорит Генри Эйдер, эксперт по синтетическим медиа.

"По крайней мере, сегодня для создания фактически неточного контента, которому люди могут поверить, требуются определенные усилия", – говорит Гупта. "В будущем возможно...