连续生成
90 分钟
单轨长篇朗读依旧保持角色一致性。
可选声音
50+ 声纹
覆盖 5 种情绪、12 种语言。
启动时间
< 2 分钟
浏览器端直接输入文本并预览。
工作流程
- Prompt & Context:输入文本、指定语言、语气与音量策略。
- VibeVoice Encoder:将文本转换为语义 token,做多语言对齐。
- Generator:选择 Online/1.5B/7B 模式,控制连续时长与情绪。
- Enhancer:应用 EQ、降噪、限峰,输出广播级音轨。
- Delivery:导出 WAV/MP3,或通过 API/WebSocket 推送到产品内。
API 示例
curl -X POST https://api.vibevoice.online/tts \
-H "Authorization: Bearer $TOKEN" \
-H "Content-Type: application/json" \
-d '{
"text": "Welcome to VibeVoice",
"voice": "en_pro_female_01",
"language": "en",
"emotion": "confident",
"duration": 120
}' > output.wav
更多 SDK:Python、JavaScript、C#、ComfyUI 节点。
核心能力
- • 多语言 TTS:英语、中文、日语、韩语、德语、西班牙语等 12 种语言。
- • 情绪 & 节奏控制:愉悦、紧张、Calm、Promo 等 Preset。
- • 角色面板:管理自定义声纹、播客主持、客服、老师等角色。
- • 审计/水印:启用企业级日志、鉴权、水印嵌入。
对比优势
连续段落90-120 min 无缝
实时流200ms Latency
部署形态Online/API/自托管
许可Apache 2.0 / SLA
应用场景
教育 & eLearning
批量生成多语言课程、测验提示、听力材料。
客服 & Copilot
将 TTS 接入 IVR、聊天机器人、Copilot 工作流。
创作者 & 播客
为视频、播客、短剧提供自然语言旁白。
常见问题
VibeVoice Text-to-Speech 免费吗?
在线版与 Demo 可免费试用;API 与下载版根据调用量或许可收费。
是否需要 GPU?
在线版无需 GPU。自托管建议 4GB 以上显存,运行 7B/Large 建议 10GB+。
支持哪些语言?
英语、中文、日语、韩语、德语、西班牙语、法语、葡萄牙语、阿拉伯语等 12 种语言持续扩展中。
准备上线你的 TTS 体验?
预约 30 分钟咨询或直接加入 Discord 获取技术支持。