DreamFusion: texto 3D usando difusión 2D

DreamFusion: texto 3D usando difusión 2D

Autores anonimizados
Resumen
Los avances recientes en la síntesis de texto e imagen se han logrado a través de modelos de difusión entrenados en miles de millones de pares de imagen y texto. Adaptar este enfoque a la síntesis 3D requeriría conjuntos de datos a gran escala de activos 3D etiquetados y arquitecturas eficientes para eliminar el ruido de los datos 3D, ninguno de los cuales existe actualmente. En este trabajo, eludimos estas limitaciones mediante el uso de un modelo de difusión de texto e imagen en 2D previamente entrenado para realizar la síntesis de texto en 3D. Presentamos una destilación de densidad de probabilidad basada en pérdidas que permite el uso de un modelo de difusión 2D como previo para la optimización de un generador de imágenes paramétricas. Usando esta pérdida en un procedimiento similar a DeepDream, optimizamos un modelo 3D inicializado aleatoriamente (un campo de radiación neuronal o NeRF) a través del descenso de gradiente de modo que sus representaciones 2D desde ángulos aleatorios logren una pérdida baja. . El modelo 3D resultante del texto dado se puede ver desde cualquier ángulo, iluminado por iluminación arbitraria o compuesto en cualquier entorno 3D. Nuestro enfoque no requiere datos de entrenamiento 3D ni modificación del modelo de difusión de imágenes, lo que demuestra la eficacia de los modelos de difusión de imágenes previamente entrenados.

Con una leyenda, DreamFusion genera objetos 3D que se pueden volver a iluminar con apariencia, profundidad y normales de alta fidelidad. Los objetos se representan como un campo de radiación neuronal y aprovechan la transmisión de texto a imagen previamente entrenada, como Imagen.

¡Genera 3D tú mismo a partir de texto!
Ejemplo de objetos generados
DreamFusion genera objetos y escenas a partir de varias leyendas.

Un oso de peluche empujando un carrito de compras lleno de frutas y verduras.
una rebanada de pan fresco.
una foto DSLR ampliada de la Ópera de Sydney, vista aérea.
Componer objetos en una escena

Tecnología Sep 29, 2022 0 50 Add to Reading List

Autores anonimizados

Resumen

Los avances recientes en la síntesis de texto e imagen se han logrado a través de modelos de difusión entrenados en miles de millones de pares de imagen y texto. Adaptar este enfoque a la síntesis 3D requeriría conjuntos de datos a gran escala de activos 3D etiquetados y arquitecturas eficientes para eliminar el ruido de los datos 3D, ninguno de los cuales existe actualmente. En este trabajo, eludimos estas limitaciones mediante el uso de un modelo de difusión de texto e imagen en 2D previamente entrenado para realizar la síntesis de texto en 3D. Presentamos una destilación de densidad de probabilidad basada en pérdidas que permite el uso de un modelo de difusión 2D como previo para la optimización de un generador de imágenes paramétricas. Usando esta pérdida en un procedimiento similar a DeepDream, optimizamos un modelo 3D inicializado aleatoriamente (un campo de radiación neuronal o NeRF) a través del descenso de gradiente de modo que sus representaciones 2D desde ángulos aleatorios logren una pérdida baja. . El modelo 3D resultante del texto dado se puede ver desde cualquier ángulo, iluminado por iluminación arbitraria o compuesto en cualquier entorno 3D. Nuestro enfoque no requiere datos de entrenamiento 3D ni modificación del modelo de difusión de imágenes, lo que demuestra la eficacia de los modelos de difusión de imágenes previamente entrenados.

Con una leyenda, DreamFusion genera objetos 3D que se pueden volver a iluminar con apariencia, profundidad y normales de alta fidelidad. Los objetos se representan como un campo de radiación neuronal y aprovechan la transmisión de texto a imagen previamente entrenada, como Imagen.

¡Genera 3D tú mismo a partir de texto!

Ejemplo de objetos generados

DreamFusion genera objetos y escenas a partir de varias leyendas.

Un oso de peluche empujando un carrito de compras lleno de frutas y verduras.

una rebanada de pan fresco.

una foto DSLR ampliada de la Ópera de Sydney, vista aérea.

Componer objetos en una escena