对比表
| 平台 | 音质 | 最长时长 | 许可 | 部署 | 适合人群 |
|---|---|---|---|---|---|
| VibeVoice | 48kHz / 24-bit,情绪控制 | 90-120 分钟 | Apache 2.0 / Enterprise | 本地、云端、在线 | 企业、内容工作室 |
| Chatterbox TTS | 44.1kHz,角色风格 | 约 5 分钟 | 社区许可证 | 本地 | 个人创作者 |
| Kokoro | 32kHz,轻量 | ~3 分钟 | 非商用 | 本地 | 实验/爱好者 |
| IndexTTS2 | 可训练,依赖索引 | 取决于索引 | 多样,视语料而定 | 自托管 | 研究者 |
| RVC | 歌声转换,需源人声 | 歌曲长度 | 引用 CC BY-NC | DAW + 推理 | 音乐制作人 |
为什么选择 VibeVoice?
- • 90+ 分钟连续生成,无需分段拼接。
- • 企业级许可 + 合规日志,支持审计与水印。
- • 多语言、情绪控制、声纹管理。
- • 内置 API、Online、ComfyUI 节点,生态更完整。
迁移工作流
Step 1 · 数据导入
使用 VibeVoice CLI 读取 Chatterbox/Kokoro/IndexTTS2 项目的文本/音频,转换为统一 JSON + WAV。
Step 2 · 声纹重建
将现有 RVC 声音样本通过 Speaker Builder 转换为 VibeVoice Speaker Cards。
Step 3 · Pipeline 验证
在 Demo 或 ComfyUI 节点运行回归脚本,确认音质/节奏通过 QA,再切换生产调用。
CLI 示例
vibevoice migrate \
--source chatterbox ./project.json \
--speaker ./voices/hero.wav \
--target ./vibevoice-dataset
合规提示
迁移前确认原项目许可,尤其是 RVC/IndexTTS2 训练语料。VibeVoice 自带水印与同意管理,方便审计。
常见问题
VibeVoice 可以兼容 Chatterbox 项目的脚本吗?
可以。迁移工具会把 Chatterbox YAML 转换为 VibeVoice JSON,并映射角色/场景到 Speaker Card。
从 RVC 迁移时要注意什么?
RVC 使用歌声转换,需要确保原唱同意。迁移后可启用 VibeVoice 的水印与 consent log。
IndexTTS2 的索引能复用吗?
可通过脚本提取索引特征,映射成 VibeVoice Prompt Embedding。我们提供对照工具用于校验发音。