规格矩阵
| 型号 | 参数量 | 推荐 VRAM | 吞吐 (1xA100) | 最佳场景 | 许可 |
|---|---|---|---|---|---|
| VibeVoice 1.5B | 1.536B | 4GB | +0.8h 音频 / min | 教育、播客、原型 | Apache 2.0 |
| VibeVoice 7B | 7.07B | 10GB | +0.5h 音频 / min | 多角色动画、长篇小说 | VibeVoice Research License |
| VibeVoice Large | 13.48B | 18GB | +0.3h 音频 / min | 工作室发行、AAA 游戏、广播 | Enterprise SLA |
性能对比
- 音质一致性:Large 模型在 15 分钟以上段落拥有 2.1dB 更低的音色漂移。
- 语速控制:7B 引擎新增 prosody token,可精确控制语速/停顿。
- 多语言:Large 版新增葡萄牙语、泰语,1.5B 仍覆盖 8 种主语言。
- 实时性:1.5B 支持 200ms Latency Streaming,7B 则主打批量合成。
Latency / VRAM
1.5B @ FP16~3.5 GB / 0.8x RT
7B @ FP16~9.8 GB / 0.4x RT
Large @ BF16~17.6 GB / 0.25x RT
INT8 Pipeline-40% VRAM for 7B
注:RT = 实时比率,>1 代表超实时,<1 代表离线批量合成。
选型建议
教育 & SaaS
VibeVoice 1.5B + Online 版本,覆盖快速试错与实时播报。
动画 & 小说
7B 提供多角色情绪控制 + 自定义声纹,适用于长篇创作。
工作室发行
Large 版搭配私有化部署,满足 Dolby & 广播规范。
发布路线
Week 1
开放 7B Research Preview,包含 INT8 量化权重与 CLI 推理脚本。
Week 2
Large 版 Beta 针对工作室客户,附带 SLA、监控仪表板模板。
Week 3
在 `vibevoice-1.5b.html` 发布更新日志,增加 7B/Large 迁移路径。
Week 4
更新 sitemap 与 API 文档,确保 Search Console 识别新 URL。
下载与部署
所有模型均提供 GitHub Release、HuggingFace、Azure Blob(企业)三种分发方式。下载前请确认许可条款。
- • GitHub: 完整源码 + 推理脚本
- • HuggingFace: Safetensors / Diffusers
- • Azure: Private Endpoint + Key Vault
常见问题
VibeVoice 7B 与 1.5B 差异?
7B 增强情感控制与多角色分轨,适合长篇叙事;1.5B 则面向实时/轻量场景。两者均可共享声纹库。
vibevoice-large 什么时间 GA?
Large 版目前处于 Beta,预计 2025 Q1 GA。注册企业表单即可提前获取权重。
能否混合部署?
可以。多模型部署允许根据场景动态路由:实时请求指向 1.5B,批量渲染指向 7B/Large。