1. 使用场景
- 媒体创作:为博客文章、新闻或短视频提供高品质音频朗读。
- 多语言出海:生成包括英语、日语、韩语及多种方言在内的语音内容。
- 实时交互:支持流媒体音频输出,适用于实时对话或语音助手。
2. API 使用指南
接口端点:/audio/speech。具体使用可参考 API 文档。
主要请求参数
- model: 合成模型,如
FunAudioLLM/CosyVoice2-0.5B。 - input: 待转换的文本内容。
- voice: 选用的音色,支持系统预置、用户预置或动态音色。
- speed: 语速调整 (0.25 - 4.0),默认 1.0。
- gain: 音频增益 (-10dB - 10dB),默认 0.0。
- response_format: 输出格式,支持
mp3,opus,wav,pcm。
2.1 系统预置音色
| 性别 | 音色名称 | 特点说明 |
|---|---|---|
| 男声 | alex, benjamin, charles, david | 涵盖沉稳、低沉、磁性、欢快等风格 |
| 女声 | anna, bella, claire, diana | 涵盖沉稳、激情、温柔、欢快等风格 |
3. 音色管理与进阶使用
3.1 用户预置音色
您可以通过上传 Base64 编码或音频文件来克隆专属音色。- 管理操作:支持获取音色列表、使用动态音色及删除操作。
4. 参考音频最佳实践
为获得理想的克隆效果,请遵循以下原则:- 纯净性:仅限单一说话人,避免背景噪音、回声。
- 稳定性:吐字清晰,音量、音调和情绪保持平稳。
- 时长建议:建议参考音频时长在 8~10 秒左右。
- 推荐格式:使用 192kbps 以上的 MP3 格式。
5. 使用示例 (Python SDK)
以下示例展示了如何调用系统预置音色生成语音文件:6. 支持模型列表
- CosyVoice2 系列:支持跨语言合成、情感控制、细粒度韵律调整。
- MOSS-TTSD 系列:高表现力对话语调,支持零样本双人语音克隆。
相关链接