AI拟声:5秒内克隆声音并生成任意语音内容—MockingBird

AI拟声:5秒内克隆声音并生成任意语音内容—MockingBird

2022-09-02 0 485
资源编号 36655 最近更新 2022-09-02
¥ 0人民币 升级VIP
立即下载 注意事项
下载不了?请联系网站客服提交链接错误!
增值服务: 安装指导 环境配置 二次开发 模板修改 源码安装

本期推荐的是一个基于Python的AI拟声项目——MockingBird。

MockingBird可以通过5秒钟的音频素材完成克隆声音,产生的输出音色与原始声音非常相似,并且能够合成原始音频样本中不存在的声音和辅音,同时也支持生成任意语音内容。

AI拟声:5秒内克隆声音并生成任意语音内容—MockingBird

MockingBird特性:

  • 中文支持普通话并使用多种中文数据集进行测试:aidatatang_200zh, magicdata, aishell3, biaobei, MozillaCommonVoice, data_aishell 等
  • PyTorch适用于 pytorch,已在 1.9.0 版本(最新于 2021 年 8 月)中测试,GPU Tesla T4 和 GTX 2060
  • Windows+Linux可在Windows操作系统和linux操作系统中运行(苹果系统M1版也有社区成功运行案例)
  • Easy & Awesome下载器或新训练合成器合成器有良好的效果,自带声音预置的编码器/码,或实时的HiFi-GAN作为声码器
  • Webserver Ready可服务器的训练结果,供远程调用

如何使用:

1.安装

  • 安装PyTorch。
  • 安装ffmpeg。
  • 运行pip install -r requirements.txt来安装必要的包。
  • 安装 webrtcvad pip install webrtcvad-wheels。

2.准备预训练模型

2.1 使用数据集自己训练合成器模型(与2.2二选一)

  • 下载数据集并解压:确保您可以访问 train 文件夹中的所有音频文件(如.wav)
  • 进行音频和梅尔频谱图预处理: python pre.py <datasets_root> -d {dataset} -n {number} 可传入参数
  • -d{dataset} 指定数据集,支持 aidatatang_200zh, magicdata, aishell3, data_aishell, 不传默认为aidatatang_200zh
  • -n {number} 指定并行数,CPU 11770k + 32GB实测10没有问题

假如你下载的 aidatatang_200zh文件放在D盘,train文件路径为 D:\data\aidatatang_200zh\corpus\train , 你的datasets_root就是 D:\data\

  • 训练合成器: python synthesizer_train.py mandarin <datasets_root>/SV2TTS/synthesizer
  • 当您在训练文件夹 synthesizer/saved_models/ 中看到注意线显示和损失满足您的需要时,请转到启动程序一步。

2.2使用社区预先训练好的合成器(与2.1二选一)

相关地址请参考文末链接中的介绍

2.3训练声码器 (可选)

  • 预处理数据: python vocoder_preprocess.py <datasets_root> -m <synthesizer_model_path>

<datasets_root>替换为你的数据集目录,<synthesizer_model_path>替换为一个你最好的synthesizer模型目录,例如 sythensizer\saved_mode\xxx

  • 训练wavernn声码器: python vocoder_train.py <trainid> <datasets_root>

<trainid>替换为你想要的标识,同一标识再次训练时会延续原模型

  • 训练hifigan声码器: python vocoder_train.py <trainid> <datasets_root> hifigan

<trainid>替换为你想要的标识,同一标识再次训练时会延续原模型

3. 启动程序或工具箱

3.1启动Web程序:

python web.py 运行成功后在浏览器打开地址, 默认为 http://localhost:8080

AI拟声:5秒内克隆声音并生成任意语音内容—MockingBird

3.2启动工具箱

python demo_toolbox.py -d <datasets_root>

请指定一个可用的数据集文件路径,如果有支持的数据集则会自动加载供调试,也同时会作为手动录制音频的存储目录。

AI拟声:5秒内克隆声音并生成任意语音内容—MockingBird

更多内容大家可自行前往阅读。

资源下载此资源为免费资源立即下载

申明:本文由第三方发布,内容仅代表作者观点,与本网站无关。对本文以及其中全部或者部分内容的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本网发布或转载文章出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

七爪网 免费源码 AI拟声:5秒内克隆声音并生成任意语音内容—MockingBird https://www.7claw.com/36655.html

分享免费的开源源码

常见问题
  • 1、自动:拍下后,点击(下载)链接即可下载;2、手动:拍下后,联系卖家发放即可或者联系官方找开发者发货。
查看详情
  • 1、源码默认交易周期:手动发货商品为1-3天,并且用户付款金额将会进入平台担保直到交易完成或者3-7天即可发放,如遇纠纷无限期延长收款金额直至纠纷解决或者退款!;
查看详情
  • 1、七爪会对双方交易的过程及交易商品的快照进行永久存档,以确保交易的真实、有效、安全! 2、七爪无法对如“永久包更新”、“永久技术支持”等类似交易之后的商家承诺做担保,请买家自行鉴别; 3、在源码同时有网站演示与图片演示,且站演与图演不一致时,默认按图演作为纠纷评判依据(特别声明或有商定除外); 4、在没有”无任何正当退款依据”的前提下,商品写有”一旦售出,概不支持退款”等类似的声明,视为无效声明; 5、在未拍下前,双方在QQ上所商定的交易内容,亦可成为纠纷评判依据(商定与描述冲突时,商定为准); 6、因聊天记录可作为纠纷评判依据,故双方联系时,只与对方在七爪上所留的QQ、手机号沟通,以防对方不承认自我承诺。 7、虽然交易产生纠纷的几率很小,但一定要保留如聊天记录、手机短信等这样的重要信息,以防产生纠纷时便于七爪介入快速处理。
查看详情
  • 1、七爪作为第三方中介平台,依据交易合同(商品描述、交易前商定的内容)来保障交易的安全及买卖双方的权益; 2、非平台线上交易的项目,出现任何后果均与互站无关;无论卖家以何理由要求线下交易的,请联系管理举报。
查看详情

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务