Twelve Labs получает 12 миллионов долларов за ИИ, который понимает контекст видео

Для Джея Ли, специалиста по обработке и анализу данных, это видео никогда не имело смысла — оно стало огромной частью нашей жизни с появлением таких платформ, как TikTok, Vimeo и YouTube, — было трудным. для навигации из-за технических препятствий для понимания контекста. Поиск названий, описаний и тегов видео по-прежнему был довольно простым и требовал не более чем базового алгоритма. Но поиск определенных моментов и сцен внутри видео был далеко за пределами возможностей технологии, особенно если эти моменты и сцены не были явно помечены.

Чтобы решить эту проблему, Ли вместе с друзьями из технологической отрасли создал облачный сервис для поиска и понимания видео. Она стала Twelve Labs, которая затем привлекла венчурный капитал в размере 17 миллионов долларов, из которых 12 миллионов долларов поступили от посевного раунда расширения, завершившегося сегодня. Radical Ventures возглавила расширение с участием Index Ventures, WndrCo, Spring Ventures, генерального директора Weights & Biases Лукаса Бивальда и других, сообщил Ли TechCrunch по электронной почте.
>
"Цель Twelve Labs – помочь разработчикам создавать программы, способные видеть, слышать и понимать мир так же, как это делаем мы, предоставляя самую мощную инфраструктуру для понимания видео", – сказал Ли.

Демонстрация возможностей платформы Twelve Labs. Авторы изображений: двенадцать лабораторий

Twelve Labs, которая в настоящее время находится в стадии закрытого бета-тестирования, использует искусственный интеллект, чтобы попытаться извлечь из видео «богатую информацию», такую как движение и действия, объекты и люди, звук, текст на экране и речь, чтобы определить отношения между ними. Платформа преобразует эти различные элементы в математические представления, называемые «векторами», и формирует «временные связи» между изображениями, что позволяет использовать такие приложения, как поиск видеосцен.

"В рамках реализации концепции компании по оказанию помощи разработчикам в создании интеллектуальных видеоприложений команда Twelve Labs создает "базовые модели" для понимания мультимодального видео", — сказал Ли. «Разработчики смогут получить доступ к этим шаблонам через набор API-интерфейсов, выполняющих не только семантический поиск, но и другие задачи, такие как «разбивка на главы» длинных видео, генерация резюме и вопросы и ответы по видео».< /p>
Google применяет аналогичный подход к пониманию видео в своей системе искусственного интеллекта MUM, которую компания использует для предоставления видеорекомендаций в поиске Google и на YouTube, выбирая темы в видео (например, "материалы акриловой краски") в зависимости от звука. , текстовый и визуальный контент. Но хотя технология может быть сопоставима, Twelve Labs является одним из первых поставщиков, выпустивших ее на рынок; Google решил оставить MUM внутри компании, отказавшись предоставлять его через общедоступный API.

При этом Google, наряду с Microsoft и Amazon, предлагает сервисы (например, Google Cloud Video AI, Azure Video Indexer и AWS Rekognition), которые распознают объекты, места и действия в видео и извлекают подробные метаданные из изображения. уровень. . Есть также Reminiz, французский стартап в области компьютерного зрения, который утверждает, что может индексировать любой тип видео и добавлять теги к записанному и транслируемому контенту. Но Ли говорит, что Twelve Labs достаточно разнообразна, отчасти потому, что ее платформа позволяет клиентам настраивать ИИ для конкретных категорий видеоконтента.

Технологии Dec 5, 2022 0 29 Add to Reading List

Twelve Labs получает 12 миллионов долларов за ИИ, который понимает контекст видео

Для Джея Ли, специалиста по обработке и анализу данных, это видео никогда не имело смысла — оно стало огромной частью нашей жизни с появлением таких платформ, как TikTok, Vimeo и YouTube, — было трудным. для навигации из-за технических препятствий для понимания контекста. Поиск названий, описаний и тегов видео по-прежнему был довольно простым и требовал не более чем базового алгоритма. Но поиск определенных моментов и сцен внутри видео был далеко за пределами возможностей технологии, особенно если эти моменты и сцены не были явно помечены.

Чтобы решить эту проблему, Ли вместе с друзьями из технологической отрасли создал облачный сервис для поиска и понимания видео. Она стала Twelve Labs, которая затем привлекла венчурный капитал в размере 17 миллионов долларов, из которых 12 миллионов долларов поступили от посевного раунда расширения, завершившегося сегодня. Radical Ventures возглавила расширение с участием Index Ventures, WndrCo, Spring Ventures, генерального директора Weights & Biases Лукаса Бивальда и других, сообщил Ли TechCrunch по электронной почте.

"Цель Twelve Labs – помочь разработчикам создавать программы, способные видеть, слышать и понимать мир так же, как это делаем мы, предоставляя самую мощную инфраструктуру для понимания видео", – сказал Ли.

Демонстрация возможностей платформы Twelve Labs. Авторы изображений: двенадцать лабораторий

Twelve Labs, которая в настоящее время находится в стадии закрытого бета-тестирования, использует искусственный интеллект, чтобы попытаться извлечь из видео «богатую информацию», такую как движение и действия, объекты и люди, звук, текст на экране и речь, чтобы определить отношения между ними. Платформа преобразует эти различные элементы в математические представления, называемые «векторами», и формирует «временные связи» между изображениями, что позволяет использовать такие приложения, как поиск видеосцен.

"В рамках реализации концепции компании по оказанию помощи разработчикам в создании интеллектуальных видеоприложений команда Twelve Labs создает "базовые модели" для понимания мультимодального видео", — сказал Ли. «Разработчики смогут получить доступ к этим шаблонам через набор API-интерфейсов, выполняющих не только семантический поиск, но и другие задачи, такие как «разбивка на главы» длинных видео, генерация резюме и вопросы и ответы по видео».< /p>

Google применяет аналогичный подход к пониманию видео в своей системе искусственного интеллекта MUM, которую компания использует для предоставления видеорекомендаций в поиске Google и на YouTube, выбирая темы в видео (например, "материалы акриловой краски") в зависимости от звука. , текстовый и визуальный контент. Но хотя технология может быть сопоставима, Twelve Labs является одним из первых поставщиков, выпустивших ее на рынок; Google решил оставить MUM внутри компании, отказавшись предоставлять его через общедоступный API.

При этом Google, наряду с Microsoft и Amazon, предлагает сервисы (например, Google Cloud Video AI, Azure Video Indexer и AWS Rekognition), которые распознают объекты, места и действия в видео и извлекают подробные метаданные из изображения. уровень. . Есть также Reminiz, французский стартап в области компьютерного зрения, который утверждает, что может индексировать любой тип видео и добавлять теги к записанному и транслируемому контенту. Но Ли говорит, что Twelve Labs достаточно разнообразна, отчасти потому, что ее платформа позволяет клиентам настраивать ИИ для конкретных категорий видеоконтента.