Meta 的开源语音 AI 模型支持 1,100 多种语言

2023-06-16 0 357

Meta 的开源语音 AI 模型支持 1,100 多种语言

机器学习和语音识别技术的进步使人们更容易获取信息,尤其是那些依赖语音获取信息的人。 然而,缺乏多种语言的标记数据对开发高质量的机器学习模型构成了重大挑战。

针对这一问题,Meta-led Massively Multilingual Speech (MMS) 项目在扩大语言覆盖范围和提高语音识别和合成模型的性能方面取得了显着进步。

通过将自我监督学习技术与多样化的宗教读物数据集相结合,MMS 项目取得了令人瞩目的成果,将现有语音识别模型支持的约 100 种语言增加到 1,100 多种语言。

打破语言障碍
为了解决大多数语言的标记数据稀缺问题,MMS 项目使用了宗教文本,例如圣经,这些文本已被翻译成多种语言。

这些翻译提供了人们阅读文本的公开录音,从而能够创建一个包含 1,100 多种语言的新约读物的数据集。

通过包括其他宗教读物的未标记录音,该项目扩大了语言覆盖范围以识别 4,000 多种语言。

尽管数据集的特定领域和主要是男性说话者,但模型对男性和女性声音的表现同样出色。 Meta 还表示,它没有引入任何宗教偏见。

通过自我监督学习克服挑战
仅使用每种语言 32 小时的数据来训练传统的监督式语音识别模型是不够的。

为了克服这一限制,MMS 项目利用了 wav2vec 2.0 自监督语音表示学习技术的优势。

通过在 1,400 种语言的大约 500,000 小时的语音数据上训练自监督模型,该项目显着减少了对标记数据的依赖。

然后针对特定的语音任务对生成的模型进行微调,例如多语言语音识别和语言识别。

令人印象深刻的结果
对基于 MMS 数据训练的模型的评估揭示了令人印象深刻的结果。 与 OpenAI 的 Whisper 相比,MMS 模型的单词错误率降低了一半,同时覆盖了 11 倍以上的语言。

此外,MMS 项目成功地为 1,100 多种语言构建了文本到语音系统。 尽管存在多种语言的不同说话人相对较少的局限性,但这些系统生成的语音质量很高。

虽然 MMS 模型已经显示出可喜的结果,但必须承认它们的缺陷。 语音到文本模型的错误转录或错误解释可能会导致冒犯性或不准确的语言。 MMS 项目强调整个 AI 社区的协作以减轻此类风险。

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 行业资讯 Meta 的开源语音 AI 模型支持 1,100 多种语言 https://www.7claw.com/57806.html

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务