2025最新GPT-SoVITS模型训练教学【炼丹师会员专属】

2025最新GPT-SoVITS模型训练教学【炼丹师会员专属】

教学

GPT-SoVITS模型训练教学【炼丹师会员专属】

什么是TTS

TTS(Text-To-Speech)这是一种文字转语音的语音合成。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS模型只有TTS功能,也就是不能唱歌。

GPT-SoVITS模型-V1实现了:

  • 由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
  • 可以少量语音微调训练,也可不训练直接推理
  • 可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种

GPT-SoVITS模型-V2新增特点:

  • 对低音质参考音频合成出来音质更好
  • 底模训练集增加到5k小时,zero shot性能更好音色更像,所需数据集更少
  • 增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成
  • 更好的文本前端:持续迭代更新。V2中英文加入多音字优化。

GPT-SoVITS模型-V3新增特点:

  • 训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)
  • s2结构变更为:shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低,s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了,整体训练时长不变】s2原理的变更(基于参考音频扩散补全)导致音色相似度大幅提升。由于没用端到端合成,使用了开源的24k的BigVGANv2参数从mel谱得到波形。
  • s1结构不变,更新了一版参数

语种主持(可跨语种合成)

GPT训练集时长

SoVITS训练集时长

推理速度

参数量

文本前端

功能

中日英

2k小时

2k小时

baseline

90M+77M

baseline

baseline

中日英韩粤

2.5k小时

vq encoder2k小时,剩余5k小时

翻倍

90M+77M

中日英逻辑均有增强

新增语速调节,无参考文本模式,更好的混合语种切分,音色混合

中日英韩粤

7k小时

vq encoder2k小时,剩余7k小时

约等于v2

330M+77M

不变

大幅增加zero shot相似度;情绪表达、微调性能提升

 

V320252月更新)

中日英韩粤

7k小时

vq encoder2k小时,剩余7k小时

约等于v2

330M+77M

不变

大幅增加zero shot相似度;情绪表达、微调性能提升

V420254月更新)

中日英韩粤

7k小时

vq encoder2k小时,剩余7k小时

约等于v2

330M+77M

不变

修复了v3非整数倍上采样可能导致的电音问题,原生输出48k音频防闷

用过V2ProPlus以前版本版的老用户,那么肯定可以轻松的完成训练和推理,因为相比V1,V2在操作页面上几乎没有区别。下面你只要了解一下有哪些新功能就好了。

V2ProPlus新特性:

  1. s2增加SV音色emb引导
  2. 输入模型的音色emb提升到1024通道;
  3. v2ProPlus增加s2的decoder宽度;
  4. 显卡需求低于V3以及V4。

V4新特性

  1. v4修复了v3非整数倍上采样可能导致的电音问题,原生输出48k音频防闷(而v3原生输出只有24k)

作者认为v4是v3的平替,更多还需测试。

V3新特性

  1. 音色相似度更像,需要更少训练集来逼近本人(不训练直接使用底模的模式下音色相似性提升更大)
  2. GPT合成更稳定,重复漏字(根据测试集实验指标)更少,也更容易跑出丰富情感
  3. 比v2更忠实于参考音频。微调场景下,v2比v3更受训练集整体平均影响,然后带一些参考音频的引

© 版权声明
THE END
喜欢就支持一下吧
点赞8
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容

收藏我们,及时查看最新的模型。按Ctrl+D收藏我们 或 发现更多