Imagen de Google se enfrenta a Make-A-Video de Meta a medida que aumentan los modelos de IA de texto a video

Aprenda cómo su empresa puede crear aplicaciones para automatizar tareas y ganar eficiencia con herramientas de código bajo/sin código el 9 de noviembre en la cumbre virtual de código bajo/sin código. Regístrate aquí.

Es la temporada de la inteligencia artificial generativa (IA). La semana pasada, Meta anunció Make-A-Video, un sistema de inteligencia artificial que permite a los usuarios convertir mensajes de texto en clips de video cortos, únicos y de alta calidad. Ahora Google no se queda atrás. La tendencia de texto a video muestra todos los signos de estar lista para explotar, tal como lo hizo el texto a imagen el año pasado con DALL-E, MidJourney y Stable Diffusion.

Anunciado ayer, Imagen Video de Google es un modelo de IA de síntesis de video generativo capaz de producir video de alta definición a partir de un mensaje de texto. El modelo de entrega de video condicionado por texto puede generar video con una resolución de hasta 1280 × 768 a 24 cuadros por segundo.
Imagen Video de Google ofrece alta fidelidad
En su artículo recientemente publicado "Imagen Video: generación de video de alta definición con modelos de entrega", Google afirma que Imagen Video es capaz de generar video con alta fidelidad y tiene un alto grado de controlabilidad y conocimiento del mundo. Las capacidades del modelo generativo incluyen la creación de varios videos de texto y animaciones en diferentes estilos artísticos, comprensión 3D, representación de texto y animación. El modelo se encuentra actualmente en fase de investigación, pero su llegada se produce apenas cinco meses después de que Imagen mostrara el rápido desarrollo de los modelos basados en síntesis.

Imagen de video

Imagen Video consta de un codificador de texto (congelado T5-XXL), un modelo de transmisión de video básico y modelos de transmisión de superresolución espacial y temporal intercalados. Para crear una arquitectura de este tipo, Google afirma haber transferido los resultados de trabajos anteriores sobre la generación de imágenes basadas en transmisión al parámetro de generación de video. El equipo de investigación también inculcó la destilación progresiva en los modelos de video con sugerencias sin clasificador para un muestreo rápido y de alta calidad.
Evento
Vértice de código bajo/sin código

Únase a los principales líderes de hoy en Low-Code/No-Code Summit virtualmente el 9 de noviembre. Regístrese para obtener su pase gratis hoy.
registrarse aquí Cascada de siete modelos de entrega de subvideo
El marco de generación de video es una cascada de siete modelos de transmisión de subvideo que realizan generación de video condicional de texto, superresolución espacial y superresolución temporal. Con toda la cascada, Imagen Video genera video de alta definición de 1280 × 768 a 24 fps para 128 cuadros, o alrededor de 126 millones de píxeles. Usando la destilación progresiva, Imagen Video puede generar video de alta calidad usando solo ocho etapas de transmisión por submodelo. Esto acelera el tiempo de generación de video en un factor de aproximadamente 18 veces.

Las muchas capacidades estilísticas notables del modelo también incluyen la generación de videos basados en el trabajo de pintores de renombre como Vincent van Gogh, renderizar objetos giratorios en 3D mientras se preserva su estructura y renderizar texto en varios estilos de animación.

Google dice que Imagen Video se entrenó en el conjunto de datos de imagen y texto LAION-400M disponible públicamente, junto con 14 millones de pares de video y texto y 60 millones de pares de imagen y texto. Los conjuntos de datos de entrenamiento le permitieron generalizar un...

Inauguración Oct 6, 2022 0 36 Add to Reading List

Imagen de Google se enfrenta a Make-A-Video de Meta a medida que aumentan los modelos de IA de texto a video

Aprenda cómo su empresa puede crear aplicaciones para automatizar tareas y ganar eficiencia con herramientas de código bajo/sin código el 9 de noviembre en la cumbre virtual de código bajo/sin código. Regístrate aquí.

Es la temporada de la inteligencia artificial generativa (IA). La semana pasada, Meta anunció Make-A-Video, un sistema de inteligencia artificial que permite a los usuarios convertir mensajes de texto en clips de video cortos, únicos y de alta calidad. Ahora Google no se queda atrás. La tendencia de texto a video muestra todos los signos de estar lista para explotar, tal como lo hizo el texto a imagen el año pasado con DALL-E, MidJourney y Stable Diffusion.

Anunciado ayer, Imagen Video de Google es un modelo de IA de síntesis de video generativo capaz de producir video de alta definición a partir de un mensaje de texto. El modelo de entrega de video condicionado por texto puede generar video con una resolución de hasta 1280 × 768 a 24 cuadros por segundo.

Imagen Video de Google ofrece alta fidelidad

En su artículo recientemente publicado "Imagen Video: generación de video de alta definición con modelos de entrega", Google afirma que Imagen Video es capaz de generar video con alta fidelidad y tiene un alto grado de controlabilidad y conocimiento del mundo. Las capacidades del modelo generativo incluyen la creación de varios videos de texto y animaciones en diferentes estilos artísticos, comprensión 3D, representación de texto y animación. El modelo se encuentra actualmente en fase de investigación, pero su llegada se produce apenas cinco meses después de que Imagen mostrara el rápido desarrollo de los modelos basados en síntesis.

Imagen de video

Imagen Video consta de un codificador de texto (congelado T5-XXL), un modelo de transmisión de video básico y modelos de transmisión de superresolución espacial y temporal intercalados. Para crear una arquitectura de este tipo, Google afirma haber transferido los resultados de trabajos anteriores sobre la generación de imágenes basadas en transmisión al parámetro de generación de video. El equipo de investigación también inculcó la destilación progresiva en los modelos de video con sugerencias sin clasificador para un muestreo rápido y de alta calidad.

Evento

Vértice de código bajo/sin código

Únase a los principales líderes de hoy en Low-Code/No-Code Summit virtualmente el 9 de noviembre. Regístrese para obtener su pase gratis hoy.

registrarse aquí Cascada de siete modelos de entrega de subvideo

El marco de generación de video es una cascada de siete modelos de transmisión de subvideo que realizan generación de video condicional de texto, superresolución espacial y superresolución temporal. Con toda la cascada, Imagen Video genera video de alta definición de 1280 × 768 a 24 fps para 128 cuadros, o alrededor de 126 millones de píxeles. Usando la destilación progresiva, Imagen Video puede generar video de alta calidad usando solo ocho etapas de transmisión por submodelo. Esto acelera el tiempo de generación de video en un factor de aproximadamente 18 veces.

Las muchas capacidades estilísticas notables del modelo también incluyen la generación de videos basados en el trabajo de pintores de renombre como Vincent van Gogh, renderizar objetos giratorios en 3D mientras se preserva su estructura y renderizar texto en varios estilos de animación.

Google dice que Imagen Video se entrenó en el conjunto de datos de imagen y texto LAION-400M disponible públicamente, junto con 14 millones de pares de video y texto y 60 millones de pares de imagen y texto. Los conjuntos de datos de entrenamiento le permitieron generalizar un...