ComfyUI Blueprint

VibeVoice × ComfyUI 集成指引

将 VibeVoice 90 分钟连续生成能力嵌入 ComfyUI。学习如何导入 checkpoints、配置自定义节点、串联后处理,并用 JSON Flow 模板一键复用。

接入亮点

  • ✅ 支持 VibeVoice 1.5B、7B 以及自定义声纹 checkpoints
  • ✅ 预设 VRAM Preset(4GB / 8GB / 16GB)自动选择最佳节点
  • ✅ JSON flow 可导入 ComfyUI 0.9+,无需额外脚本
  • ✅ 包含 AudioLDM、Downstream Mixer 等后处理串联

集成时长

24 分钟

基于模板完成首次接入并生成首段音频。

节点稳定性

99.2%

在 500+ 批量推理中保持一致输出。

支持模型

12+

包含 VibeVoice 1.5B、7B、Large 及自定义语音包。

ComfyUI 节点流程

遵循主页结构,我们提供 From Prompt → VibeVoice Encoder → Generator → Enhancer → Export 的五段式流程,并附带中/英翻译提示。

  1. 1. Prompt Loader:导入文本、时长、语速参数。
  2. 2. VibeVoice Text Encoder:自动侦测语言,输出语义向量。
  3. 3. VibeVoice Generator:选择 1.5B/7B/Custom checkpoint,控制 90 分钟段落。
  4. 4. Audio Enhancer:串接 Loudness、EQ、Limiter 节点,匹配播客/客服标准。
  5. 5. Export & Monitor:导出 WAV + 元数据,并将日志推送至 Prometheus。
{
  "nodes": [
    {"type": "PromptLoader", "id": "prompt", "text_lang": "auto"},
    {"type": "VibeVoiceTextEncoder", "id": "encoder", "checkpoint": "vibevoice-1.5b"},
    {"type": "VibeVoiceGenerator", "id": "generator", "voice": "studio.en_female_01", "duration": 5400},
    {"type": "AudioEnhancer", "id": "enhancer", "chain": ["eq", "de-esser", "limiter"]},
    {"type": "AudioExporter", "id": "export", "format": "wav", "metadata": true}
  ],
  "links": [
    ["prompt", "encoder"],
    ["encoder", "generator"],
    ["generator", "enhancer"],
    ["enhancer", "export"]
  ]
}

可直接导入 ComfyUI 0.9+。更多 JSON Flow 在资源区下载。

核心特性

  •  自动 VRAM 预设:根据算力切换 FP16/INT8。
  •  声纹库管理:在 ComfyUI 中保存 VibeVoice Speaker Cards。
  •  90 分钟拼接:自动切片拼接,无语义漂移。
  •  Webhook:推送完成事件到 Slack、Teams、Webhook。

性能曲线

基于 4090/3090/3060 Ti 的吞吐表现:

VibeVoice 1.5B+38% 推理速率
VibeVoice 7B20 分钟内渲染儿童有声读物
Custom Speaker4GB VRAM 即可推理短句

典型场景

长篇有声书

利用 90 分钟连续生成与章节化 JSON,保持角色一致性。

客服 + Copilot

通过 Webhook 将生成结果推送至客服工作台或 Copilot 插件。

创作者直播

实时生成旁白/弹幕语音,搭配 OBS 音轨。

Resources

下载节点模板与检测脚本

提供 JSON Flow、节点安装脚本、VRAM Benchmark、监控模板,帮助你在 CI/CD 或工作室环境快速落地。

常见问题

ComfyUI 需要特定版本吗?

建议使用 0.9 及以上版本,确保自定义节点系统(Custom Nodes)支持 VibeVoice 节点。旧版本亦可通过 Node Registry 手动注册。

如何在 4GB VRAM 下运行?

选择 INT8 量化 checkpoint、启用分块合成并缩短单段长度至 15 分钟即可。我们提供对应 JSON Flow。

支持多语言吗?

VibeVoice 节点会自动识别文本语言,目前覆盖英语、中文、日语、韩语、德语、西班牙语、阿拉伯语。

立即导入 VibeVoice ComfyUI Flow

下载 JSON 模板、加入 Discord 获取节点更新,让你的 ComfyUI 面板直接生成工作室级音频。