1. 使用场景

  • 媒体创作:为博客文章、新闻或短视频提供高品质音频朗读。
  • 多语言出海:生成包括英语、日语、韩语及多种方言在内的语音内容。
  • 实时交互:支持流媒体音频输出,适用于实时对话或语音助手。

2. API 使用指南

接口端点:/audio/speech。具体使用可参考 API 文档

主要请求参数

  • model: 合成模型,如 FunAudioLLM/CosyVoice2-0.5B
  • input: 待转换的文本内容。
  • voice: 选用的音色,支持系统预置、用户预置或动态音色。
  • speed: 语速调整 (0.25 - 4.0),默认 1.0。
  • gain: 音频增益 (-10dB - 10dB),默认 0.0。
  • response_format: 输出格式,支持 mp3, opus, wav, pcm

2.1 系统预置音色

性别音色名称特点说明
男声alex, benjamin, charles, david涵盖沉稳、低沉、磁性、欢快等风格
女声anna, bella, claire, diana涵盖沉稳、激情、温柔、欢快等风格

3. 音色管理与进阶使用

3.1 用户预置音色

您可以通过上传 Base64 编码或音频文件来克隆专属音色。
  • 管理操作:支持获取音色列表、使用动态音色及删除操作。

4. 参考音频最佳实践

为获得理想的克隆效果,请遵循以下原则:
  • 纯净性:仅限单一说话人,避免背景噪音、回声。
  • 稳定性:吐字清晰,音量、音调和情绪保持平稳。
  • 时长建议:建议参考音频时长在 8~10 秒左右。
  • 推荐格式:使用 192kbps 以上的 MP3 格式。

5. 使用示例 (Python SDK)

以下示例展示了如何调用系统预置音色生成语音文件:
from pathlib import Path
from openai import OpenAI

speech_file_path = Path(__file__).parent / "generated-speech.mp3"
client = OpenAI(
    api_key="您的 APIKEY", 
    base_url="https://api.nonelinear.com/v1"
)

with client.audio.speech.with_streaming_response.create(
    model="FunAudioLLM/CosyVoice2-0.5B",
    voice="FunAudioLLM/CosyVoice2-0.5B:alex",
    input="今天真是太开心了,马上要放假了!I'm so happy, vacation is coming!",
    response_format="mp3"
) as response:
    response.stream_to_file(speech_file_path)

6. 支持模型列表

  • CosyVoice2 系列:支持跨语言合成、情感控制、细粒度韵律调整。
  • MOSS-TTSD 系列:高表现力对话语调,支持零样本双人语音克隆。

相关链接