机器学习和语音识别技术的进步使人们更容易获取信息,尤其是那些依赖语音获取信息的人。 然而,缺乏多种语言的标记数据对开发高质量的机器学习模型构成了重大挑战。
针对这一问题,Meta-led Massively Multilingual Speech (MMS) 项目在扩大语言覆盖范围和提高语音识别和合成模型的性能方面取得了显着进步。
通过将自我监督学习技术与多样化的宗教读物数据集相结合,MMS 项目取得了令人瞩目的成果,将现有语音识别模型支持的约 100 种语言增加到 1,100 多种语言。
打破语言障碍
为了解决大多数语言的标记数据稀缺问题,MMS 项目使用了宗教文本,例如圣经,这些文本已被翻译成多种语言。
这些翻译提供了人们阅读文本的公开录音,从而能够创建一个包含 1,100 多种语言的新约读物的数据集。
通过包括其他宗教读物的未标记录音,该项目扩大了语言覆盖范围以识别 4,000 多种语言。
尽管数据集的特定领域和主要是男性说话者,但模型对男性和女性声音的表现同样出色。 Meta 还表示,它没有引入任何宗教偏见。
通过自我监督学习克服挑战
仅使用每种语言 32 小时的数据来训练传统的监督式语音识别模型是不够的。
为了克服这一限制,MMS 项目利用了 wav2vec 2.0 自监督语音表示学习技术的优势。
通过在 1,400 种语言的大约 500,000 小时的语音数据上训练自监督模型,该项目显着减少了对标记数据的依赖。
然后针对特定的语音任务对生成的模型进行微调,例如多语言语音识别和语言识别。
令人印象深刻的结果
对基于 MMS 数据训练的模型的评估揭示了令人印象深刻的结果。 与 OpenAI 的 Whisper 相比,MMS 模型的单词错误率降低了一半,同时覆盖了 11 倍以上的语言。
此外,MMS 项目成功地为 1,100 多种语言构建了文本到语音系统。 尽管存在多种语言的不同说话人相对较少的局限性,但这些系统生成的语音质量很高。
虽然 MMS 模型已经显示出可喜的结果,但必须承认它们的缺陷。 语音到文本模型的错误转录或错误解释可能会导致冒犯性或不准确的语言。 MMS 项目强调整个 AI 社区的协作以减轻此类风险。