Новые модели искусственного интеллекта Meta могут распознавать и воспроизводить речь на более чем 1000 языках.

Компания Meta создала модели искусственного интеллекта, способные распознавать и воспроизводить речь на более чем 1000 языков, что в десять раз больше, чем доступно в настоящее время. По мнению компании, это важный шаг к сохранению языков, которым грозит исчезновение.

Meta публикует свои модели в открытом доступе через службу размещения кода GitHub. Он утверждает, что открытие их исходного кода поможет разработчикам, работающим на разных языках, создавать новые голосовые приложения, такие как службы обмена сообщениями, которые понимают все, или системы виртуальной реальности, которые можно использовать на любом языке.

В мире существует около 7000 языков, но существующие модели распознавания речи охватывают только около 100. Это связано с тем, что для таких моделей обычно требуются огромные объемы размеченных обучающих данных, которые доступны только для небольшого числа языков, включая английский, испанский и китайский.

Мета-исследователи решили эту проблему, переобучив существующую модель искусственного интеллекта, разработанную компанией в 2020 году, которая может изучать речевые паттерны из аудио, не требуя больших объемов размеченных данных, таких как стенограммы.

Они обучили его на двух новых наборах данных: один содержит аудиозаписи Библии Нового Завета и соответствующий текст, извлеченный из Интернета, на 1107 языках, а другой содержит немаркированные аудиозаписи Нового Завета на 3809 языках. Команда обработала речевые аудио и текстовые данные, чтобы улучшить их качество, прежде чем запустить алгоритм, предназначенный для сопоставления аудиозаписей с сопровождающим текстом. Затем они повторили этот процесс со вторым алгоритмом, обученным на недавно выровненных данных. С помощью этого метода исследователи смогли научить алгоритм более легкому изучению нового языка даже без сопроводительного текста.

"Мы можем использовать то, чему научилась эта модель, чтобы быстро создавать речевые системы с очень небольшим количеством данных", – говорит Майкл Аули, исследователь из Meta, работавший над проектом.

"Для английского языка у нас есть очень много хороших наборов данных, и у нас есть еще несколько языков, но у нас просто нет наборов данных для языков, на которых говорит, скажем, 1000 человек".

Исследователи утверждают, что их модели могут общаться более чем на 1000 языков, но распознают более 4000.

Они сравнили модели с моделями конкурирующих компаний, в том числе OpenAI Whisper, и заявили, что у их моделей вдвое меньше ошибок, хотя они охватывают в 11 раз больше языков.

Однако команда предупреждает, что в шаблоне по-прежнему может быть неправильная расшифровка некоторых слов или фраз, что может привести к неточным или потенциально оскорбительным формулировкам. Они также признают, что их модели распознавания речи давали больше необъективных слов, чем другие модели, но только на 0,7% больше.

Несмотря на то, что масштабы исследования впечатляют, использование религиозных текстов для обучения моделей ИИ может вызывать споры, — говорит Крис Эмезуэ, исследователь из Masakhane, организации, занимающейся обработкой естественного языка для языков африканцев, который не принимал участия в исследовании. в проекте.

"Библия содержит много предубеждений и искажений", – говорит он.

Технологии May 23, 2023 0 43 Add to Reading List

Новые модели искусственного интеллекта Meta могут распознавать и воспроизводить речь на более чем 1000 языках.

Компания Meta создала модели искусственного интеллекта, способные распознавать и воспроизводить речь на более чем 1000 языков, что в десять раз больше, чем доступно в настоящее время. По мнению компании, это важный шаг к сохранению языков, которым грозит исчезновение.

Meta публикует свои модели в открытом доступе через службу размещения кода GitHub. Он утверждает, что открытие их исходного кода поможет разработчикам, работающим на разных языках, создавать новые голосовые приложения, такие как службы обмена сообщениями, которые понимают все, или системы виртуальной реальности, которые можно использовать на любом языке.

В мире существует около 7000 языков, но существующие модели распознавания речи охватывают только около 100. Это связано с тем, что для таких моделей обычно требуются огромные объемы размеченных обучающих данных, которые доступны только для небольшого числа языков, включая английский, испанский и китайский.

Мета-исследователи решили эту проблему, переобучив существующую модель искусственного интеллекта, разработанную компанией в 2020 году, которая может изучать речевые паттерны из аудио, не требуя больших объемов размеченных данных, таких как стенограммы.

Они обучили его на двух новых наборах данных: один содержит аудиозаписи Библии Нового Завета и соответствующий текст, извлеченный из Интернета, на 1107 языках, а другой содержит немаркированные аудиозаписи Нового Завета на 3809 языках. Команда обработала речевые аудио и текстовые данные, чтобы улучшить их качество, прежде чем запустить алгоритм, предназначенный для сопоставления аудиозаписей с сопровождающим текстом. Затем они повторили этот процесс со вторым алгоритмом, обученным на недавно выровненных данных. С помощью этого метода исследователи смогли научить алгоритм более легкому изучению нового языка даже без сопроводительного текста.

"Мы можем использовать то, чему научилась эта модель, чтобы быстро создавать речевые системы с очень небольшим количеством данных", – говорит Майкл Аули, исследователь из Meta, работавший над проектом.

"Для английского языка у нас есть очень много хороших наборов данных, и у нас есть еще несколько языков, но у нас просто нет наборов данных для языков, на которых говорит, скажем, 1000 человек".

Исследователи утверждают, что их модели могут общаться более чем на 1000 языков, но распознают более 4000.

Они сравнили модели с моделями конкурирующих компаний, в том числе OpenAI Whisper, и заявили, что у их моделей вдвое меньше ошибок, хотя они охватывают в 11 раз больше языков.

Однако команда предупреждает, что в шаблоне по-прежнему может быть неправильная расшифровка некоторых слов или фраз, что может привести к неточным или потенциально оскорбительным формулировкам. Они также признают, что их модели распознавания речи давали больше необъективных слов, чем другие модели, но только на 0,7% больше.

Несмотря на то, что масштабы исследования впечатляют, использование религиозных текстов для обучения моделей ИИ может вызывать споры, — говорит Крис Эмезуэ, исследователь из Masakhane, организации, занимающейся обработкой естественного языка для языков африканцев, который не принимал участия в исследовании. в проекте.

"Библия содержит много предубеждений и искажений", – говорит он.