Meta 宣布 Voicebox，一种用于多个文本到语音任务的生成模型

7 月 11 日至 12 日在旧金山与高级管理人员一起了解领导者如何整合和优化 AI 投资以取得成功。了解更多

上周，Meta Platforms 的人工智能研究部门推出了 Voicebox，这是一种能够从文本生成语音的机器学习模型。 Voicebox 与其他文本到语音模型的不同之处在于它能够执行许多未经训练的任务，包括编辑、噪声消除和风格转换。

该模型使用 Meta 研究人员开发的特殊方法进行训练。尽管出于对滥用的道德担忧，Meta 尚未发布 Voicebox，但早期结果很有希望，并可能在未来推动许多应用。
“流量匹配”
Voicebox 是一种生成模型，能够合成六种语言的语音，包括英语、法语、西班牙语、德语、波兰语和葡萄牙语。与大型语言模型一样，它是针对可用于许多应用程序的非常通用的任务进行训练的。但是，虽然 LLM 试图学习单词和文本序列的统计规律，但 Voicebox 被训练来学习将语音音频样本映射到其转录的模式。

这样的模型可以应用于许多下游任务，几乎不需要调整。 “我们的目标是创建一个能够通过上下文学习执行许多文本引导语音生成任务的单一模型，”Meta 研究人员在描述 Voicebox 技术细节的论文 (PDF) 中写道。
事件
转型 2023

7 月 11 日至 12 日在旧金山与我们会面，届时高级管理人员将讨论他们如何整合和优化 AI 投资以取得成功并避免常见的陷阱。
现在注册
该模型采用 Meta 的“流匹配”技术进行训练，与其他生成模型中使用的基于扩散的学习方法相比，该技术更加高效和通用。该技术允许 Voicebox “从不同的语音数据中学习，而无需仔细标记这些变化。”在不需要手动标记的情况下，研究人员能够在 50,000 小时的语音和有声读物转录上训练 Voicebox。

该模型使用“文本引导语音填充”作为其训练目标，这意味着它应该根据其音频环境和完整的文本转录来预测一段语音。基本上，这意味着在训练期间，模型会收到一个音频样本及其相应的文本。然后部分音频被屏蔽，模型尝试使用周围的音频和文字记录作为上下文来生成屏蔽部分。通过一遍又一遍地执行此操作，该模型学会以一种可概括的方式从文本生成自然语音。

与针对特定应用程序训练的生成模型不同，Voicebox 可以执行许多未训练的任务。例如，该模型可以使用两秒钟的语音样本为新文本生成语音。 Meta 表示，这种能力可以用来让不会说话的人或自定义不可玩游戏角色的声音以及......

商业 Jun 19, 2023 0 22 Add to Reading List

7 月 11 日至 12 日在旧金山与高级管理人员一起了解领导者如何整合和优化 AI 投资以取得成功。 了解更多

上周，Meta Platforms 的人工智能研究部门推出了 Voicebox，这是一种能够从文本生成语音的机器学习模型。 Voicebox 与其他文本到语音模型的不同之处在于它能够执行许多未经训练的任务，包括编辑、噪声消除和风格转换。

该模型使用 Meta 研究人员开发的特殊方法进行训练。尽管出于对滥用的道德担忧，Meta 尚未发布 Voicebox，但早期结果很有希望，并可能在未来推动许多应用。

“流量匹配”

Voicebox 是一种生成模型，能够合成六种语言的语音，包括英语、法语、西班牙语、德语、波兰语和葡萄牙语。与大型语言模型一样，它是针对可用于许多应用程序的非常通用的任务进行训练的。但是，虽然 LLM 试图学习单词和文本序列的统计规律，但 Voicebox 被训练来学习将语音音频样本映射到其转录的模式。

这样的模型可以应用于许多下游任务，几乎不需要调整。 “我们的目标是创建一个能够通过上下文学习执行许多文本引导语音生成任务的单一模型，”Meta 研究人员在描述 Voicebox 技术细节的论文 (PDF) 中写道。

事件

转型 2023

7 月 11 日至 12 日在旧金山与我们会面，届时高级管理人员将讨论他们如何整合和优化 AI 投资以取得成功并避免常见的陷阱。

现在注册

该模型采用 Meta 的“流匹配”技术进行训练，与其他生成模型中使用的基于扩散的学习方法相比，该技术更加高效和通用。该技术允许 Voicebox “从不同的语音数据中学习，而无需仔细标记这些变化。”在不需要手动标记的情况下，研究人员能够在 50,000 小时的语音和有声读物转录上训练 Voicebox。

该模型使用“文本引导语音填充”作为其训练目标，这意味着它应该根据其音频环境和完整的文本转录来预测一段语音。基本上，这意味着在训练期间，模型会收到一个音频样本及其相应的文本。然后部分音频被屏蔽，模型尝试使用周围的音频和文字记录作为上下文来生成屏蔽部分。通过一遍又一遍地执行此操作，该模型学会以一种可概括的方式从文本生成自然语音。

与针对特定应用程序训练的生成模型不同，Voicebox 可以执行许多未训练的任务。例如，该模型可以使用两秒钟的语音样本为新文本生成语音。 Meta 表示，这种能力可以用来让不会说话的人或自定义不可玩游戏角色的声音以及......