以上是效果
什么是 IndexTTS2
IndexTTS2 是由 Bilibili 开发的下一代文本转语音模型,于2025年9月8日正式开源。该模型在情感表达和时长控制方面实现重大突破,被社区誉为”最逼真、最具表现力的 TTS 模型”。
技术背景
- 开发周期:基于一年多的混合模型和线性注意力实验
- 训练数据:55,000小时多语言语料,涵盖中文、英文、日文
- 模型架构:支持工业级应用的自回归零样本 TTS 系统
核心技术特性
1. 零样本声音克隆
- 输入要求:仅需一个音频文件(任意语言)
- 克隆精度:极其准确地复制音色、节奏和说话风格
- 语言支持:中英文输出,输入音频可为任意语言
2. 情感音色分离控制
| 情感类型 | 控制方式 | 应用场景 |
|---|---|---|
| 8种基础情感 | 开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静 | 影视配音 |
| 音频情感参考 | 提供第二个情感音频文件 | 情感迁移 |
| 文本情感描述 | 直接文字描述期望情感 | 便捷操作 |
| 向量精确控制 | 8维情感强度向量 | 专业调节 |
3. 精确时长控制
全球首创功能
IndexTTS2 是首个支持精确时长控制的自回归 TTS 模型,精确到毫秒级别
- 指定时长模式:明确指定生成音频长度
- 自由时长模式:自然节奏生成
- 应用价值:完美适配视频配音需求
4. 多模态情感输入
输入方式1:音频 + 文本
输入方式2:情感音频 + 目标文本
输入方式3:情感描述文本 + 目标文本
输入方式4:情感向量 + 目标文本
竞品对比分析
| 功能特性 | IndexTTS2 | MaskGCT | F5-TTS | ElevenLabs |
|---|---|---|---|---|
| 声音克隆精度 | ||||
| 情感控制 | ||||
| 时长控制 | ||||
| 本地部署 | ||||
| 开源程度 | 完全开源 | 开源 | 开源 | 闭源 |
| 商业使用 | 支持 | 支持 | 支持 | 付费 |
# index-tts2 一键整合包
## 使用方法
1. 下载解压
2. 双击`双击启动.bat`
3. 第一次启动会自动创建python环境、安装依赖、下载 index-tts2模型,用时可能从几分钟到几十分钟,请耐心等待
如果最终窗口底部显示如下图,说明成功.
4. 成功后,将自动在浏览器中打开地址http://127.0.0.1:7860`
默认从 modelscope.cn 下载模型,如果你希望从 huggingface 下载,则打开 `webui.py`文件,找到第 53 行,将紧接着的4行代码前的`#`符号删掉,然后删掉 后续的3行代码,即可。