OpenAI запускает Point-E, который похож на DALL-E, но для 3D-моделирования

<р> Его разрешение невелико, но оно на две величины быстрее, чем у конкурирующих систем.

OpenAI, стартап в области искусственного интеллекта, основанный Илоном Маском и создавший популярный генератор преобразования текста в изображение DALL-E, объявил во вторник о выпуске совершенно новой машины для создания изображений POINT-E, способной создавать трехмерные точки. облака прямо из текстовой инструкции. В то время как устаревшим системам, таким как DreamFusion от Google, обычно требуется несколько часов (и несколько графических процессоров) для создания изображений, Point-E требуется только один графический процессор и одна или две минуты.

Открытый ИИ

3D-моделирование используется в самых разных отраслях и приложениях. CGI-эффекты современных блокбастеров, видеоигр, виртуальная и дополненная реальность, миссии НАСА по картированию лунных кратеров, проекты Google по сохранению памятников наследия и видение Метавселенной — все они опираются на возможности 3D-моделирования. Однако создание фотореалистичных 3D-изображений по-прежнему является трудоемким и ресурсоемким процессом, несмотря на работу NVIDIA по автоматизации генерации объектов и мобильное приложение RealityCapture от Epic Game, которое позволяет любому владельцу телефона iOS оцифровывать объекты реального мира в виде 3D-изображений.

Системы синтеза изображений, такие как DALL-E 2 и Craiyon от OpenAI, DeepAI, Lensa от Prisma Lab или Stable Diffusion от HuggingFace, в последние годы быстро завоевали популярность, известность и дурную славу. Преобразование текста в 3D является ответвлением этого исследования. Point-E, в отличие от аналогичных систем, «управляет большим набором пар (текст, изображение), что позволяет ему следовать разнообразным и сложным подсказкам, в то время как наша модель изображения-3D обучается на меньшем наборе данных пар (изображение, 3D). ", пишет исследовательская группа OpenAI во главе с Алексом Николом в Point E: A System for Generating 3D Point Clouds from Complex Prompts, опубликованном на прошлой неделе. "Текстовая подсказка, мы сначала сэмплируем изображение, используя модель текст-изображение, затем сэмплируем 3D объект, упакованный в выбранное изображение. Оба эти шага можно выполнить за считанные секунды и не требуют дорогостоящих процедур оптимизации."

OpenAI

Если вы вводите текстовое приглашение, например, «Кошка ест буррито», Point-E сначала создаст 3D-рендеринг синтетического вида указанной кошки, поедающей буррито. Затем это сгенерированное изображение будет пропущено через ряд диффузионных моделей для создания трехмерного облака точек RGB исходного изображения — сначала будет создана грубая модель облака точек из 1024, а затем более точная модель облака точек из 4096 точек. «На практике мы предполагаем, что изображение содержит релевантную информацию из текста, и не обусловливаем явным образом графики рассеяния по тексту», — отмечает исследовательская группа.

Каждая из этих широковещательных моделей была обучена на миллионах 3D-моделей, преобразованных в стандартный формат. «Хотя наш метод дает худшие результаты в этой оценке, чем самые современные методы, — признает команда, — он производит образцы за небольшую долю времени». Если вы хотите попробовать это сами, OpenAI разместил открытый исходный код проекта на Github.

Все продукты, рекомендованные Engadget, выбираются нашей редакционной группой независимо от нашей материнской компании. Некоторые из наших историй содержат партнерские ссылки. Если вы приобретете что-либо по одной из этих ссылок, мы можем...

Технологии Dec 21, 2022 0 29 Add to Reading List

<р> Его разрешение невелико, но оно на две величины быстрее, чем у конкурирующих систем.

OpenAI, стартап в области искусственного интеллекта, основанный Илоном Маском и создавший популярный генератор преобразования текста в изображение DALL-E, объявил во вторник о выпуске совершенно новой машины для создания изображений POINT-E, способной создавать трехмерные точки. облака прямо из текстовой инструкции. В то время как устаревшим системам, таким как DreamFusion от Google, обычно требуется несколько часов (и несколько графических процессоров) для создания изображений, Point-E требуется только один графический процессор и одна или две минуты.

Открытый ИИ

3D-моделирование используется в самых разных отраслях и приложениях. CGI-эффекты современных блокбастеров, видеоигр, виртуальная и дополненная реальность, миссии НАСА по картированию лунных кратеров, проекты Google по сохранению памятников наследия и видение Метавселенной — все они опираются на возможности 3D-моделирования. Однако создание фотореалистичных 3D-изображений по-прежнему является трудоемким и ресурсоемким процессом, несмотря на работу NVIDIA по автоматизации генерации объектов и мобильное приложение RealityCapture от Epic Game, которое позволяет любому владельцу телефона iOS оцифровывать объекты реального мира в виде 3D-изображений.

Системы синтеза изображений, такие как DALL-E 2 и Craiyon от OpenAI, DeepAI, Lensa от Prisma Lab или Stable Diffusion от HuggingFace, в последние годы быстро завоевали популярность, известность и дурную славу. Преобразование текста в 3D является ответвлением этого исследования. Point-E, в отличие от аналогичных систем, «управляет большим набором пар (текст, изображение), что позволяет ему следовать разнообразным и сложным подсказкам, в то время как наша модель изображения-3D обучается на меньшем наборе данных пар (изображение, 3D). ", пишет исследовательская группа OpenAI во главе с Алексом Николом в Point E: A System for Generating 3D Point Clouds from Complex Prompts, опубликованном на прошлой неделе. "Текстовая подсказка, мы сначала сэмплируем изображение, используя модель текст-изображение, затем сэмплируем 3D объект, упакованный в выбранное изображение. Оба эти шага можно выполнить за считанные секунды и не требуют дорогостоящих процедур оптимизации."

OpenAI

Если вы вводите текстовое приглашение, например, «Кошка ест буррито», Point-E сначала создаст 3D-рендеринг синтетического вида указанной кошки, поедающей буррито. Затем это сгенерированное изображение будет пропущено через ряд диффузионных моделей для создания трехмерного облака точек RGB исходного изображения — сначала будет создана грубая модель облака точек из 1024, а затем более точная модель облака точек из 4096 точек. «На практике мы предполагаем, что изображение содержит релевантную информацию из текста, и не обусловливаем явным образом графики рассеяния по тексту», — отмечает исследовательская группа.

Каждая из этих широковещательных моделей была обучена на миллионах 3D-моделей, преобразованных в стандартный формат. «Хотя наш метод дает худшие результаты в этой оценке, чем самые современные методы, — признает команда, — он производит образцы за небольшую долю времени». Если вы хотите попробовать это сами, OpenAI разместил открытый исходный код проекта на Github.

Все продукты, рекомендованные Engadget, выбираются нашей редакционной группой независимо от нашей материнской компании. Некоторые из наших историй содержат партнерские ссылки. Если вы приобретете что-либо по одной из этих ссылок, мы можем...

Facebook Twitter Whatsapp Linkedin Pinterest

What's Your Reaction?

0

Like

0

Dislike

0

Love

0

Funny

0

Angry

0

Sad

0

Wow