Imagen від Google бере участь у Make-A-Video від Meta, оскільки моделі штучного інтелекту для перетворення тексту у відео набирають обертів

Дізнайтеся, як ваш бізнес може створювати програми для автоматизації завдань і підвищення ефективності за допомогою інструментів з низьким/безкодовим використанням 9 листопада на віртуальному саміті з низьким кодом/без коду. Зареєструйтеся тут.

Настав сезон генеративного штучного інтелекту (ШІ). Минулого тижня Meta анонсувала Make-A-Video, систему штучного інтелекту, яка дозволяє користувачам перетворювати текстові підказки на короткі, високоякісні, єдині у своєму роді відеокліпи. Зараз Google не відстає. Тенденція перетворення тексту в відео демонструє всі ознаки готовності до вибуху, як це сталося минулого року з DALL-E, MidJourney і Stable Diffusion.

Оголошена лише вчора Imagen Video від Google — це генеративна модель штучного інтелекту для синтезу відео, здатна створювати відео високої чіткості з текстового запиту. Модель доставки відео з текстовими умовами може виводити відео з роздільною здатністю до 1280 × 768 зі швидкістю 24 кадри в секунду.
Imagen Video від Google пропонує високу точність
У нещодавно опублікованій статті "Imagen Video: створення відео високої чіткості за допомогою моделей доставки" Google стверджує, що Imagen Video здатне створювати відео з високою точністю та має високий ступінь керованості та знання світу. Можливості генеративної моделі включають створення різноманітних текстових відео та анімацій у різних художніх стилях, тривимірне розуміння, рендеринг тексту та анімацію. Наразі ця модель знаходиться на стадії дослідження, але вона з’явилася лише через п’ять місяців після того, як Imagen продемонструвала швидкий розвиток моделей на основі синтезу.

Imagen Video складається з текстового кодера (заморожений T5-XXL), базової потокової моделі відео та просторових і часових просторових і часових моделей потокової передачі з високою роздільною здатністю. Щоб створити таку архітектуру, Google стверджує, що переніс результати попередньої роботи з потокової генерації зображень у параметр генерації відео. Дослідницька група також застосувала прогресивну дистиляцію до відеомоделей із підказками без класифікаторів для швидкої високоякісної вибірки.
Подія
Вершина з низьким кодом/без коду

Приєднуйтеся до провідних лідерів сьогодні на віртуальному саміті Low-Code/No-Code Summit, який відбудеться 9 листопада. Підпишіться на безкоштовний абонемент сьогодні.
зареєструватися тут Каскад із семи моделей доставки суб-відео
Структура генерації відео – це каскад із семи моделей потокового допоміжного відео, які виконують генерацію текстового відео з умовними умовами, просторову супер-роздільність і часову супер-роздільність. З повним водоспадом Imagen Video виводить відео високої чіткості 1280 × 768 зі швидкістю 24 кадри в секунду для 128 кадрів, або близько 126 мільйонів пікселів. Використовуючи прогресивну дистиляцію, Imagen Video може генерувати відео високої якості, використовуючи лише вісім етапів потокової передачі на підмодель. Це пришвидшує час створення відео приблизно у 18 разів.

Стартапи Oct 6, 2022 0 36 Add to Reading List

Imagen від Google бере участь у Make-A-Video від Meta, оскільки моделі штучного інтелекту для перетворення тексту у відео набирають обертів

Дізнайтеся, як ваш бізнес може створювати програми для автоматизації завдань і підвищення ефективності за допомогою інструментів з низьким/безкодовим використанням 9 листопада на віртуальному саміті з низьким кодом/без коду. Зареєструйтеся тут.

Настав сезон генеративного штучного інтелекту (ШІ). Минулого тижня Meta анонсувала Make-A-Video, систему штучного інтелекту, яка дозволяє користувачам перетворювати текстові підказки на короткі, високоякісні, єдині у своєму роді відеокліпи. Зараз Google не відстає. Тенденція перетворення тексту в відео демонструє всі ознаки готовності до вибуху, як це сталося минулого року з DALL-E, MidJourney і Stable Diffusion.

Оголошена лише вчора Imagen Video від Google — це генеративна модель штучного інтелекту для синтезу відео, здатна створювати відео високої чіткості з текстового запиту. Модель доставки відео з текстовими умовами може виводити відео з роздільною здатністю до 1280 × 768 зі швидкістю 24 кадри в секунду.

Imagen Video від Google пропонує високу точність

У нещодавно опублікованій статті "Imagen Video: створення відео високої чіткості за допомогою моделей доставки" Google стверджує, що Imagen Video здатне створювати відео з високою точністю та має високий ступінь керованості та знання світу. Можливості генеративної моделі включають створення різноманітних текстових відео та анімацій у різних художніх стилях, тривимірне розуміння, рендеринг тексту та анімацію. Наразі ця модель знаходиться на стадії дослідження, але вона з’явилася лише через п’ять місяців після того, як Imagen продемонструвала швидкий розвиток моделей на основі синтезу.

Imagen Video складається з текстового кодера (заморожений T5-XXL), базової потокової моделі відео та просторових і часових просторових і часових моделей потокової передачі з високою роздільною здатністю. Щоб створити таку архітектуру, Google стверджує, що переніс результати попередньої роботи з потокової генерації зображень у параметр генерації відео. Дослідницька група також застосувала прогресивну дистиляцію до відеомоделей із підказками без класифікаторів для швидкої високоякісної вибірки.

Подія

Вершина з низьким кодом/без коду

Приєднуйтеся до провідних лідерів сьогодні на віртуальному саміті Low-Code/No-Code Summit, який відбудеться 9 листопада. Підпишіться на безкоштовний абонемент сьогодні.

зареєструватися тут Каскад із семи моделей доставки суб-відео

Структура генерації відео – це каскад із семи моделей потокового допоміжного відео, які виконують генерацію текстового відео з умовними умовами, просторову супер-роздільність і часову супер-роздільність. З повним водоспадом Imagen Video виводить відео високої чіткості 1280 × 768 зі швидкістю 24 кадри в секунду для 128 кадрів, або близько 126 мільйонів пікселів. Використовуючи прогресивну дистиляцію, Imagen Video може генерувати відео високої якості, використовуючи лише вісім етапів потокової передачі на підмодель. Це пришвидшує час створення відео приблизно у 18 разів.