Model Portfolio

VibeVoice 7B & Large 型号矩阵

比较 VibeVoice 1.5B、7B、Large 与未来 Roadmap。掌握 VRAM 需求、吞吐表现、适合场景以及下载路径,帮助你在局域机房或云端快速部署。

关键参数

7B 参数量
7,072,256,000
Large 参数量
13,480,000,000
最长合成
120 min
多语言
12 种

规格矩阵

型号 参数量 推荐 VRAM 吞吐 (1xA100) 最佳场景 许可
VibeVoice 1.5B 1.536B 4GB +0.8h 音频 / min 教育、播客、原型 Apache 2.0
VibeVoice 7B 7.07B 10GB +0.5h 音频 / min 多角色动画、长篇小说 VibeVoice Research License
VibeVoice Large 13.48B 18GB +0.3h 音频 / min 工作室发行、AAA 游戏、广播 Enterprise SLA

性能对比

  • 音质一致性:Large 模型在 15 分钟以上段落拥有 2.1dB 更低的音色漂移。
  • 语速控制:7B 引擎新增 prosody token,可精确控制语速/停顿。
  • 多语言:Large 版新增葡萄牙语、泰语,1.5B 仍覆盖 8 种主语言。
  • 实时性:1.5B 支持 200ms Latency Streaming,7B 则主打批量合成。

Latency / VRAM

1.5B @ FP16~3.5 GB / 0.8x RT
7B @ FP16~9.8 GB / 0.4x RT
Large @ BF16~17.6 GB / 0.25x RT
INT8 Pipeline-40% VRAM for 7B

注:RT = 实时比率,>1 代表超实时,<1 代表离线批量合成。

选型建议

教育 & SaaS

VibeVoice 1.5B + Online 版本,覆盖快速试错与实时播报。

动画 & 小说

7B 提供多角色情绪控制 + 自定义声纹,适用于长篇创作。

工作室发行

Large 版搭配私有化部署,满足 Dolby & 广播规范。

发布路线

Week 1

开放 7B Research Preview,包含 INT8 量化权重与 CLI 推理脚本。

Week 2

Large 版 Beta 针对工作室客户,附带 SLA、监控仪表板模板。

Week 3

在 `vibevoice-1.5b.html` 发布更新日志,增加 7B/Large 迁移路径。

Week 4

更新 sitemap 与 API 文档,确保 Search Console 识别新 URL。

下载与部署

所有模型均提供 GitHub Release、HuggingFace、Azure Blob(企业)三种分发方式。下载前请确认许可条款。

  • • GitHub: 完整源码 + 推理脚本
  • • HuggingFace: Safetensors / Diffusers
  • • Azure: Private Endpoint + Key Vault

常见问题

VibeVoice 7B 与 1.5B 差异?

7B 增强情感控制与多角色分轨,适合长篇叙事;1.5B 则面向实时/轻量场景。两者均可共享声纹库。

vibevoice-large 什么时间 GA?

Large 版目前处于 Beta,预计 2025 Q1 GA。注册企业表单即可提前获取权重。

能否混合部署?

可以。多模型部署允许根据场景动态路由:实时请求指向 1.5B,批量渲染指向 7B/Large。

需要 7B/Large 评估包?

填写申请即可获得预览下载、基准脚本和支持通道。