B站开发的tts工具 IndexTTS2
B站开发的tts工具 IndexTTS2

B站开发的tts工具 IndexTTS2

以上是效果

什么是 IndexTTS2

IndexTTS2 是由 Bilibili 开发的下一代文本转语音模型,于2025年9月8日正式开源。该模型在情感表达和时长控制方面实现重大突破,被社区誉为”最逼真、最具表现力的 TTS 模型”。

技术背景

  • 开发周期:基于一年多的混合模型和线性注意力实验
  • 训练数据:55,000小时多语言语料,涵盖中文、英文、日文
  • 模型架构:支持工业级应用的自回归零样本 TTS 系统

核心技术特性

1. 零样本声音克隆

  • 输入要求:仅需一个音频文件(任意语言)
  • 克隆精度:极其准确地复制音色、节奏和说话风格
  • 语言支持:中英文输出,输入音频可为任意语言

2. 情感音色分离控制

情感类型 控制方式 应用场景
8种基础情感 开心、愤怒、悲伤、恐惧、厌恶、忧郁、惊讶、平静 影视配音
音频情感参考 提供第二个情感音频文件 情感迁移
文本情感描述 直接文字描述期望情感 便捷操作
向量精确控制 8维情感强度向量 专业调节

3. 精确时长控制

💡 全球首创功能
IndexTTS2 是首个支持精确时长控制的自回归 TTS 模型,精确到毫秒级别

  • 指定时长模式:明确指定生成音频长度
  • 自由时长模式:自然节奏生成
  • 应用价值:完美适配视频配音需求

4. 多模态情感输入

输入方式1:音频 + 文本
输入方式2:情感音频 + 目标文本  
输入方式3:情感描述文本 + 目标文本
输入方式4:情感向量 + 目标文本

竞品对比分析

功能特性 IndexTTS2 MaskGCT F5-TTS ElevenLabs
声音克隆精度 ⭐⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
情感控制 ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐ ⭐⭐⭐⭐
时长控制 ⭐⭐⭐⭐⭐ ❌ ❌ ❌
本地部署 ✅ ✅ ✅ ❌
开源程度 完全开源 开源 开源 闭源
商业使用 支持 支持 支持 付费

# index-tts2 一键整合包

## 使用方法

1. 下载解压
2. 双击`双击启动.bat`
3. 第一次启动会自动创建python环境、安装依赖、下载 index-tts2模型,用时可能从几分钟到几十分钟,请耐心等待

如果最终窗口底部显示如下图,说明成功.

4. 成功后,将自动在浏览器中打开地址http://127.0.0.1:7860`

默认从 modelscope.cn 下载模型,如果你希望从 huggingface 下载,则打开 `webui.py`文件,找到第 53 行,将紧接着的4行代码前的`#`符号删掉,然后删掉 后续的3行代码,即可。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注