Deepgram получает новое финансирование для расширения своего корпоративного бизнеса по распознаванию речи

Deepgram, компания, разрабатывающая технологию распознавания голоса для предприятий, сегодня привлекла новое финансирование в размере 47 млн долларов во главе с Madrona Venture Group при участии Citi Ventures и Alkeon. Расширение Deepgram серии B, которое началось в феврале 2021 года под руководством Tiger Global, довело общую сумму стартапа до 86 миллионов долларов, которые, по словам генерального директора Скотта Стивенсона, потрачены на исследования и разработки в таких областях, как обнаружение эмоций, распознавание намерений, резюме, определение темы, перевод и письмо.

«Мы рады, что Deepgram достигла самой высокой оценки до и после получения денег, даже несмотря на сложные рыночные условия», — сказал Стивенсон TechCrunch в интервью по электронной почте. (К сожалению, он не раскрыл точную оценку.) «Мы считаем, что Deepgram находится в сильной позиции, чтобы процветать в этой более сложной макроэкономической среде. Искусственный речевой интеллект Deepgram лежит в основе технологии, лежащей в основе многих приложений наших клиентов, и спрос на понимание речи растет по мере того, как компании стремятся к большей эффективности. »

Deepgram, запущенный в 2015 году, занимается созданием собственных решений по распознаванию голоса для таких клиентов, как Spotify, Auth0 и даже NASA. Исследователи данных компании исследуют, создают, маркируют и оценивают голосовые данные для создания моделей распознавания речи, которые могут понимать бренды и жаргон, фиксировать различные языки и акценты и адаптироваться к суровым звуковым средам. Например, для НАСА Deepgram создала модель для расшифровки сообщений между Центром управления полетами и Международной космической станцией.

"Аудиоданные – один из крупнейших неиспользованных источников данных в мире. [Но] их трудно использовать в аудиоформате, поскольку аудио – это неструктурированный тип данных, глубокое понимание без дополнительной обработки», — сказал Стивенсон. «Deepgram берет неструктурированные аудиоданные и структурирует их в текст и метаданные с высокой скоростью и низкой стоимостью, разработанной для корпоративного масштаба… [С] Deepgram [компании] могут отправлять все свои клиентские аудиоданные. – сотни тысяч или миллионы часов – для расшифровки и анализа».

Откуда берутся аудиоданные для обучения моделей Deepgram? Стефенсон был немного скромен, хотя и не отрицал, что Deepgram использует данные о клиентах для улучшения своих систем. Он сразу же отметил, что компания соответствует требованиям GDPR и позволяет пользователям запрашивать удаление своих данных в любое время.

"Модели Deepgram в основном обучаются на данных, собранных или сгенерированных нашими экспертами по обработке данных, а также на некоторых анонимных данных, предоставленных нашими пользователями", — сказал Стефенсон. «Обучение моделей на реальных данных — краеугольный камень качества нашей продукции; это то, что позволяет системам машинного обучения, подобным нашей, производить результаты, подобные человеческим. Тем не менее, мы позволяем нашим пользователям отказаться от использования их анонимных данных для обучения, если они того пожелают."

Благодаря API Deepgram компании могут интегрировать платформу в свои технологические стеки, чтобы обеспечить голосовую автоматизацию и взаимодействие с клиентами. Для организаций в сильно регулируемых отраслях, таких как здравоохранение и правительство, Deepgram предлагает вариант локального развертывания, который позволяет клиентам управлять данными и обрабатывать их локально. (Обратите внимание, что In-Q-Tel, стратегический инвестиционный отдел ЦРУ, в прошлом поддерживал Deepgram.)

Deepgram — выпускник Y Combinator, основанный Стефенсоном и выпускником факультета физики Мичиганского университета Ноем Шатти, — конкурирует с рядом поставщиков на рынке распознавания речи, стоимость которого к 2030 году может составить 48,8 миллиарда долларов. оптимистично?) источник. Технологические гиганты, такие как Nuance, Cisco, Google, Microsoft и Amazon, предлагают услуги расшифровки голоса и субтитров в режиме реального времени, как и такие стартапы, как Otter, Speechmatics, Voicera и Verbit.

У технологий есть препятствия, которые нужно преодолевать. Согласно отчету Speechmatics за 2022 год, 29% руководителей заметили предвзятость ИИ в речевых технологиях.

Технологии Nov 29, 2022 0 32 Add to Reading List

Deepgram получает новое финансирование для расширения своего корпоративного бизнеса по распознаванию речи

Deepgram, компания, разрабатывающая технологию распознавания голоса для предприятий, сегодня привлекла новое финансирование в размере 47 млн долларов во главе с Madrona Venture Group при участии Citi Ventures и Alkeon. Расширение Deepgram серии B, которое началось в феврале 2021 года под руководством Tiger Global, довело общую сумму стартапа до 86 миллионов долларов, которые, по словам генерального директора Скотта Стивенсона, потрачены на исследования и разработки в таких областях, как обнаружение эмоций, распознавание намерений, резюме, определение темы, перевод и письмо.

«Мы рады, что Deepgram достигла самой высокой оценки до и после получения денег, даже несмотря на сложные рыночные условия», — сказал Стивенсон TechCrunch в интервью по электронной почте. (К сожалению, он не раскрыл точную оценку.) «Мы считаем, что Deepgram находится в сильной позиции, чтобы процветать в этой более сложной макроэкономической среде. Искусственный речевой интеллект Deepgram лежит в основе технологии, лежащей в основе многих приложений наших клиентов, и спрос на понимание речи растет по мере того, как компании стремятся к большей эффективности. »

Deepgram, запущенный в 2015 году, занимается созданием собственных решений по распознаванию голоса для таких клиентов, как Spotify, Auth0 и даже NASA. Исследователи данных компании исследуют, создают, маркируют и оценивают голосовые данные для создания моделей распознавания речи, которые могут понимать бренды и жаргон, фиксировать различные языки и акценты и адаптироваться к суровым звуковым средам. Например, для НАСА Deepgram создала модель для расшифровки сообщений между Центром управления полетами и Международной космической станцией.

"Аудиоданные – один из крупнейших неиспользованных источников данных в мире. [Но] их трудно использовать в аудиоформате, поскольку аудио – это неструктурированный тип данных, глубокое понимание без дополнительной обработки», — сказал Стивенсон. «Deepgram берет неструктурированные аудиоданные и структурирует их в текст и метаданные с высокой скоростью и низкой стоимостью, разработанной для корпоративного масштаба… [С] Deepgram [компании] могут отправлять все свои клиентские аудиоданные. – сотни тысяч или миллионы часов – для расшифровки и анализа».

Откуда берутся аудиоданные для обучения моделей Deepgram? Стефенсон был немного скромен, хотя и не отрицал, что Deepgram использует данные о клиентах для улучшения своих систем. Он сразу же отметил, что компания соответствует требованиям GDPR и позволяет пользователям запрашивать удаление своих данных в любое время.

"Модели Deepgram в основном обучаются на данных, собранных или сгенерированных нашими экспертами по обработке данных, а также на некоторых анонимных данных, предоставленных нашими пользователями", — сказал Стефенсон. «Обучение моделей на реальных данных — краеугольный камень качества нашей продукции; это то, что позволяет системам машинного обучения, подобным нашей, производить результаты, подобные человеческим. Тем не менее, мы позволяем нашим пользователям отказаться от использования их анонимных данных для обучения, если они того пожелают."

Благодаря API Deepgram компании могут интегрировать платформу в свои технологические стеки, чтобы обеспечить голосовую автоматизацию и взаимодействие с клиентами. Для организаций в сильно регулируемых отраслях, таких как здравоохранение и правительство, Deepgram предлагает вариант локального развертывания, который позволяет клиентам управлять данными и обрабатывать их локально. (Обратите внимание, что In-Q-Tel, стратегический инвестиционный отдел ЦРУ, в прошлом поддерживал Deepgram.)

Deepgram — выпускник Y Combinator, основанный Стефенсоном и выпускником факультета физики Мичиганского университета Ноем Шатти, — конкурирует с рядом поставщиков на рынке распознавания речи, стоимость которого к 2030 году может составить 48,8 миллиарда долларов. оптимистично?) источник. Технологические гиганты, такие как Nuance, Cisco, Google, Microsoft и Amazon, предлагают услуги расшифровки голоса и субтитров в режиме реального времени, как и такие стартапы, как Otter, Speechmatics, Voicera и Verbit.

У технологий есть препятствия, которые нужно преодолевать. Согласно отчету Speechmatics за 2022 год, 29% руководителей заметили предвзятость ИИ в речевых технологиях.