Meta 的 AI 翻译器可以翻译不成文的语言

在世界上大约 7,000 种已知语言中,近一半的语言中,十分之四的语言没有附带的书面成分。这些不成文的语言给现代机器学习翻译系统带来了一个独特的问题,因为它们通常需要在翻译成新语言并将文本返回到语音之前将口头语音转换为书面文字,但据报道 Meta 用其最新的开放式解决了这个问题- 源 AI 进步。

作为 Meta 通用语音翻译 (UST) 计划的一部分,该计划致力于开发实时语音到语音翻译,以便 Metaverse 的居民可以更轻松地互动(阅读:相互性骚扰)。作为该项目的一部分,Meta 研究人员研究了福建话,这是一种在亚洲侨民中使用的不成文语言,也是台湾的官方语言之一。

机器学习翻译系统通常需要许多标记的语言示例(包括书面和口头)来练习;正是像福建话这样的不成文语言所没有的。为了避免这种情况,“我们使用语音到单元翻译 (S2UT) 将输入语音直接转换为一系列声学单元,直接在 Meta 之前开创的路径中,”首席执行官马克扎克伯格在周三的博客文章中解释道。 “然后我们从这些单元生成波形。此外,UnY 已被用于双通道解码机制,其中第一通道解码器生成相关语言(普通话)的文本,第二通道解码器创建单元。 »

“我们使用普通话作为中间语言来创建伪标签,我们首先将英语(或闽南语)语音翻译成普通话文本,然后翻译成闽南语(或英语)并添加到训练数据中,”他继续说道.目前,该系统允许说闽南语的人与说英语的人交谈,尽管方式有些生硬。该模型一次只能翻译一个完整的句子,但扎克伯格相信该技术最终可以应用于更多语言,并将改进到提供实时翻译的地步。

除了 Meta 已经使用该项目开源的训练模型和数据外,该公司还发布了首个基于闽南语语料库的语音到语音翻译基准测试系统扎克伯格宣布,该软件名为“台湾人在台湾”,以及“语音矩阵,一个使用 Meta 的创新数据挖掘技术 LASER 提取的大型语音到语音翻译语料库”。该系统将允许研究人员创建自己的语音到语音翻译系统 (S2ST)。

Engadget 推荐的所有产品均由我们的编辑团队选择,独立于我们的母公司。我们的一些故事包括附属链接。如果您通过这些链接之一购买商品,我们可能会获得会员佣金。所有价格在发布时都是正确的。

Meta 的 AI 翻译器可以翻译不成文的语言

在世界上大约 7,000 种已知语言中,近一半的语言中,十分之四的语言没有附带的书面成分。这些不成文的语言给现代机器学习翻译系统带来了一个独特的问题,因为它们通常需要在翻译成新语言并将文本返回到语音之前将口头语音转换为书面文字,但据报道 Meta 用其最新的开放式解决了这个问题- 源 AI 进步。

作为 Meta 通用语音翻译 (UST) 计划的一部分,该计划致力于开发实时语音到语音翻译,以便 Metaverse 的居民可以更轻松地互动(阅读:相互性骚扰)。作为该项目的一部分,Meta 研究人员研究了福建话,这是一种在亚洲侨民中使用的不成文语言,也是台湾的官方语言之一。

机器学习翻译系统通常需要许多标记的语言示例(包括书面和口头)来练习;正是像福建话这样的不成文语言所没有的。为了避免这种情况,“我们使用语音到单元翻译 (S2UT) 将输入语音直接转换为一系列声学单元,直接在 Meta 之前开创的路径中,”首席执行官马克扎克伯格在周三的博客文章中解释道。 “然后我们从这些单元生成波形。此外,UnY 已被用于双通道解码机制,其中第一通道解码器生成相关语言(普通话)的文本,第二通道解码器创建单元。 »

“我们使用普通话作为中间语言来创建伪标签,我们首先将英语(或闽南语)语音翻译成普通话文本,然后翻译成闽南语(或英语)并添加到训练数据中,”他继续说道.目前,该系统允许说闽南语的人与说英语的人交谈,尽管方式有些生硬。该模型一次只能翻译一个完整的句子,但扎克伯格相信该技术最终可以应用于更多语言,并将改进到提供实时翻译的地步。

除了 Meta 已经使用该项目开源的训练模型和数据外,该公司还发布了首个基于闽南语语料库的语音到语音翻译基准测试系统扎克伯格宣布,该软件名为“台湾人在台湾”,以及“语音矩阵,一个使用 Meta 的创新数据挖掘技术 LASER 提取的大型语音到语音翻译语料库”。该系统将允许研究人员创建自己的语音到语音翻译系统 (S2ST)。

Engadget 推荐的所有产品均由我们的编辑团队选择,独立于我们的母公司。我们的一些故事包括附属链接。如果您通过这些链接之一购买商品,我们可能会获得会员佣金。所有价格在发布时都是正确的。

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow