Model Portfolio

VibeVoice 7B & Large 型号矩阵

比较 VibeVoice 1.5B、7B、Large 与未来 Roadmap。掌握 VRAM 需求、吞吐表现、适合场景以及下载路径，帮助你在局域机房或云端快速部署。

查看规格表下载模型

规格矩阵

型号	参数量	推荐 VRAM	吞吐 (1xA100)	最佳场景	许可
VibeVoice 1.5B	1.536B	4GB	+0.8h 音频 / min	教育、播客、原型	Apache 2.0
VibeVoice 7B	7.07B	10GB	+0.5h 音频 / min	多角色动画、长篇小说	VibeVoice Research License
VibeVoice Large	13.48B	18GB	+0.3h 音频 / min	工作室发行、AAA 游戏、广播	Enterprise SLA

1.5B @ FP16~3.5 GB / 0.8x RT

7B @ FP16~9.8 GB / 0.4x RT

Large @ BF16~17.6 GB / 0.25x RT

INT8 Pipeline-40% VRAM for 7B

注：RT = 实时比率，>1 代表超实时，<1 代表离线批量合成。

VibeVoice 1.5B + Online 版本，覆盖快速试错与实时播报。

7B 提供多角色情绪控制 + 自定义声纹，适用于长篇创作。

Large 版搭配私有化部署，满足 Dolby & 广播规范。

Week 1

开放 7B Research Preview，包含 INT8 量化权重与 CLI 推理脚本。

Week 2

Large 版 Beta 针对工作室客户，附带 SLA、监控仪表板模板。

Week 3

在 `vibevoice-1.5b.html` 发布更新日志，增加 7B/Large 迁移路径。

Week 4

更新 sitemap 与 API 文档，确保 Search Console 识别新 URL。

所有模型均提供 GitHub Release、HuggingFace、Azure Blob（企业）三种分发方式。下载前请确认许可条款。

GitHub Releases HuggingFace 7B HuggingFace Large

7B 增强情感控制与多角色分轨，适合长篇叙事；1.5B 则面向实时/轻量场景。两者均可共享声纹库。

Large 版目前处于 Beta，预计 2025 Q1 GA。注册企业表单即可提前获取权重。

可以。多模型部署允许根据场景动态路由：实时请求指向 1.5B，批量渲染指向 7B/Large。

填写申请即可获得预览下载、基准脚本和支持通道。

申请访问联系团队