Twelve Labs получает 12 миллионов долларов за ИИ, который понимает контекст видео

Для Джея Ли, специалиста по обработке и анализу данных, это видео никогда не имело смысла — оно стало огромной частью нашей жизни с появлением таких платформ, как TikTok, Vimeo и YouTube, — было трудным. для навигации из-за технических препятствий для понимания контекста. Поиск названий, описаний и тегов видео по-прежнему был довольно простым и требовал не более чем базового алгоритма. Но поиск определенных моментов и сцен внутри видео был далеко за пределами возможностей технологии, особенно если эти моменты и сцены не были явно помечены.

Чтобы решить эту проблему, Ли вместе с друзьями из технологической отрасли создал облачный сервис для поиска и понимания видео. Она стала Twelve Labs, которая затем привлекла венчурный капитал в размере 17 миллионов долларов, из которых 12 миллионов долларов поступили от посевного раунда расширения, завершившегося сегодня. Radical Ventures возглавила расширение с участием Index Ventures, WndrCo, Spring Ventures, генерального директора Weights & Biases Лукаса Бивальда и других, сообщил Ли TechCrunch по электронной почте.

>

"Цель Twelve Labs – помочь разработчикам создавать программы, способные видеть, слышать и понимать мир так же, как это делаем мы, предоставляя самую мощную инфраструктуру для понимания видео", – сказал Ли.

Демонстрация возможностей платформы Twelve Labs. Авторы изображений: двенадцать лабораторий

Twelve Labs, которая в настоящее время находится в стадии закрытого бета-тестирования, использует искусственный интеллект, чтобы попытаться извлечь из видео «богатую информацию», такую ​​как движение и действия, объекты и люди, звук, текст на экране и речь, чтобы определить отношения между ними. Платформа преобразует эти различные элементы в математические представления, называемые «векторами», и формирует «временные связи» между изображениями, что позволяет использовать такие приложения, как поиск видеосцен.

"В рамках реализации концепции компании по оказанию помощи разработчикам в создании интеллектуальных видеоприложений команда Twelve Labs создает "базовые модели" для понимания мультимодального видео", — сказал Ли. «Разработчики смогут получить доступ к этим шаблонам через набор API-интерфейсов, выполняющих не только семантический поиск, но и другие задачи, такие как «разбивка на главы» длинных видео, генерация резюме и вопросы и ответы по видео».< /p>

Google применяет аналогичный подход к пониманию видео в своей системе искусственного интеллекта MUM, которую компания использует для предоставления видеорекомендаций в поиске Google и на YouTube, выбирая темы в видео (например, "материалы акриловой краски") в зависимости от звука. , текстовый и визуальный контент. Но хотя технология может быть сопоставима, Twelve Labs является одним из первых поставщиков, выпустивших ее на рынок; Google решил оставить MUM внутри компании, отказавшись предоставлять его через общедоступный API.

При этом Google, наряду с Microsoft и Amazon, предлагает сервисы (например, Google Cloud Video AI, Azure Video Indexer и AWS Rekognition), которые распознают объекты, места и действия в видео и извлекают подробные метаданные из изображения. уровень. . Есть также Reminiz, французский стартап в области компьютерного зрения, который утверждает, что может индексировать любой тип видео и добавлять теги к записанному и транслируемому контенту. Но Ли говорит, что Twelve Labs достаточно разнообразна, отчасти потому, что ее платформа позволяет клиентам настраивать ИИ для конкретных категорий видеоконтента.

Twelve Labs получает 12 миллионов долларов за ИИ, который понимает контекст видео

Для Джея Ли, специалиста по обработке и анализу данных, это видео никогда не имело смысла — оно стало огромной частью нашей жизни с появлением таких платформ, как TikTok, Vimeo и YouTube, — было трудным. для навигации из-за технических препятствий для понимания контекста. Поиск названий, описаний и тегов видео по-прежнему был довольно простым и требовал не более чем базового алгоритма. Но поиск определенных моментов и сцен внутри видео был далеко за пределами возможностей технологии, особенно если эти моменты и сцены не были явно помечены.

Чтобы решить эту проблему, Ли вместе с друзьями из технологической отрасли создал облачный сервис для поиска и понимания видео. Она стала Twelve Labs, которая затем привлекла венчурный капитал в размере 17 миллионов долларов, из которых 12 миллионов долларов поступили от посевного раунда расширения, завершившегося сегодня. Radical Ventures возглавила расширение с участием Index Ventures, WndrCo, Spring Ventures, генерального директора Weights & Biases Лукаса Бивальда и других, сообщил Ли TechCrunch по электронной почте.

>

"Цель Twelve Labs – помочь разработчикам создавать программы, способные видеть, слышать и понимать мир так же, как это делаем мы, предоставляя самую мощную инфраструктуру для понимания видео", – сказал Ли.

Демонстрация возможностей платформы Twelve Labs. Авторы изображений: двенадцать лабораторий

Twelve Labs, которая в настоящее время находится в стадии закрытого бета-тестирования, использует искусственный интеллект, чтобы попытаться извлечь из видео «богатую информацию», такую ​​как движение и действия, объекты и люди, звук, текст на экране и речь, чтобы определить отношения между ними. Платформа преобразует эти различные элементы в математические представления, называемые «векторами», и формирует «временные связи» между изображениями, что позволяет использовать такие приложения, как поиск видеосцен.

"В рамках реализации концепции компании по оказанию помощи разработчикам в создании интеллектуальных видеоприложений команда Twelve Labs создает "базовые модели" для понимания мультимодального видео", — сказал Ли. «Разработчики смогут получить доступ к этим шаблонам через набор API-интерфейсов, выполняющих не только семантический поиск, но и другие задачи, такие как «разбивка на главы» длинных видео, генерация резюме и вопросы и ответы по видео».< /p>

Google применяет аналогичный подход к пониманию видео в своей системе искусственного интеллекта MUM, которую компания использует для предоставления видеорекомендаций в поиске Google и на YouTube, выбирая темы в видео (например, "материалы акриловой краски") в зависимости от звука. , текстовый и визуальный контент. Но хотя технология может быть сопоставима, Twelve Labs является одним из первых поставщиков, выпустивших ее на рынок; Google решил оставить MUM внутри компании, отказавшись предоставлять его через общедоступный API.

При этом Google, наряду с Microsoft и Amazon, предлагает сервисы (например, Google Cloud Video AI, Azure Video Indexer и AWS Rekognition), которые распознают объекты, места и действия в видео и извлекают подробные метаданные из изображения. уровень. . Есть также Reminiz, французский стартап в области компьютерного зрения, который утверждает, что может индексировать любой тип видео и добавлять теги к записанному и транслируемому контенту. Но Ли говорит, что Twelve Labs достаточно разнообразна, отчасти потому, что ее платформа позволяет клиентам настраивать ИИ для конкретных категорий видеоконтента.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow