2025最新GPT-SoVITS模型训练教学【炼丹师会员专属】 - AI星球|配音工坊-AI星球|配音工坊

2025最新GPT-SoVITS模型训练教学【炼丹师会员专属】

2025最新GPT-SoVITS模型训练教学【炼丹师会员专属】

05148

教学

GPT-SoVITS模型训练教学【炼丹师会员专属】

什么是TTS

TTS（Text-To-Speech）这是一种文字转语音的语音合成。类似的还有SVC（歌声转换）、SVS（歌声合成）等。目前GPT-SoVITS模型只有TTS功能，也就是不能唱歌。

GPT-SoVITS模型-V1实现了：

由参考音频的情感、音色、语速控制合成音频的情感、音色、语速
可以少量语音微调训练，也可不训练直接推理
可以跨语种生成，即参考音频（训练集）和推理文本的语种为不同语种

GPT-SoVITS模型-V2新增特点：

对低音质参考音频合成出来音质更好
底模训练集增加到5k小时，zero shot性能更好音色更像，所需数据集更少
增加韩粤两种语言，中日英韩粤5个语种均可跨语种合成
更好的文本前端：持续迭代更新。V2中英文加入多音字优化。

GPT-SoVITS模型-V3新增特点：

训练集增加至7k小时 (MOS分音质过滤、标点停顿校验)
s2结构变更为：shortcut Conditional Flow Matching Diffusion Transformers (shortcut-CFM-DiT)。由于s2占整体延时比例太低，s2变复杂对于整体耗时影响不大。【说人话就是s2变复杂了但训练轮数变少了，整体训练时长不变】s2原理的变更（基于参考音频扩散补全）导致音色相似度大幅提升。由于没用端到端合成，使用了开源的24k的BigVGANv2参数从mel谱得到波形。
s1结构不变，更新了一版参数

语种主持（可跨语种合成）	GPT训练集时长	SoVITS训练集时长	推理速度	参数量	文本前端	功能
中日英	2k小时	2k小时	baseline	90M+77M	baseline	baseline
中日英韩粤	2.5k小时	vq encoder2k小时，剩余5k小时	翻倍	90M+77M	中日英逻辑均有增强	新增语速调节，无参考文本模式，更好的混合语种切分，音色混合
中日英韩粤	7k小时	vq encoder2k小时，剩余7k小时	约等于v2	330M+77M	不变	大幅增加zero shot相似度；情绪表达、微调性能提升

V3（2025年2月更新）	中日英韩粤	7k小时	vq encoder2k小时，剩余7k小时	约等于v2	330M+77M	不变	大幅增加zero shot相似度；情绪表达、微调性能提升
V4（2025年4月更新）	中日英韩粤	7k小时	vq encoder2k小时，剩余7k小时	约等于v2	330M+77M	不变	修复了v3非整数倍上采样可能导致的电音问题，原生输出48k音频防闷

用过V2ProPlus以前版本版的老用户，那么肯定可以轻松的完成训练和推理，因为相比V1，V2在操作页面上几乎没有区别。下面你只要了解一下有哪些新功能就好了。

V2ProPlus新特性：

s2增加SV音色emb引导
输入模型的音色emb提升到1024通道；
v2ProPlus增加s2的decoder宽度；
显卡需求低于V3以及V4。

V4新特性

v4修复了v3非整数倍上采样可能导致的电音问题，原生输出48k音频防闷（而v3原生输出只有24k）

作者认为v4是v3的平替，更多还需测试。

V3新特性

音色相似度更像，需要更少训练集来逼近本人（不训练直接使用底模的模式下音色相似性提升更大）
GPT合成更稳定，重复漏字（根据测试集实验指标）更少，也更容易跑出丰富情感
比v2更忠实于参考音频。微调场景下，v2比v3更受训练集整体平均影响，然后带一些参考音频的引

© 版权声明

本声音模型版权完全归属于声音者本人。本模型仅供个人娱乐学习使用，请您在下载后的24小时内妥善处理或删除。

THE END

模型使用|配音教学、整合包下载，工具下载

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

请登录后查看评论内容

欢迎访问AI星球|配音工坊