文本转语音 (TTS)

1. 使用场景

媒体创作：为博客文章、新闻或短视频提供高品质音频朗读。
多语言出海：生成包括英语、日语、韩语及多种方言在内的语音内容。
实时交互：支持流媒体音频输出，适用于实时对话或语音助手。

2. API 使用指南

接口端点：/audio/speech。具体使用可参考 API 文档。

主要请求参数

model: 合成模型，如 FunAudioLLM/CosyVoice2-0.5B。
input: 待转换的文本内容。
voice: 选用的音色，支持系统预置、用户预置或动态音色。
speed: 语速调整 (0.25 - 4.0)，默认 1.0。
gain: 音频增益 (-10dB - 10dB)，默认 0.0。
response_format: 输出格式，支持 mp3, opus, wav, pcm。

2.1 系统预置音色

性别	音色名称	特点说明
男声	alex, benjamin, charles, david	涵盖沉稳、低沉、磁性、欢快等风格
女声	anna, bella, claire, diana	涵盖沉稳、激情、温柔、欢快等风格

3. 音色管理与进阶使用

3.1 用户预置音色

您可以通过上传 Base64 编码或音频文件来克隆专属音色。

管理操作：支持获取音色列表、使用动态音色及删除操作。

4. 参考音频最佳实践

为获得理想的克隆效果，请遵循以下原则：

纯净性：仅限单一说话人，避免背景噪音、回声。
稳定性：吐字清晰，音量、音调和情绪保持平稳。
时长建议：建议参考音频时长在 8~10 秒左右。
推荐格式：使用 192kbps 以上的 MP3 格式。

5. 使用示例 (Python SDK)

以下示例展示了如何调用系统预置音色生成语音文件：

from pathlib import Path
from openai import OpenAI

speech_file_path = Path(__file__).parent / "generated-speech.mp3"
client = OpenAI(
    api_key="您的 APIKEY", 
    base_url="https://api.nonelinear.com/v1"
)

with client.audio.speech.with_streaming_response.create(
    model="FunAudioLLM/CosyVoice2-0.5B",
    voice="FunAudioLLM/CosyVoice2-0.5B:alex",
    input="今天真是太开心了，马上要放假了！I'm so happy, vacation is coming!",
    response_format="mp3"
) as response:
    response.stream_to_file(speech_file_path)

6. 支持模型列表

CosyVoice2 系列：支持跨语言合成、情感控制、细粒度韵律调整。
MOSS-TTSD 系列：高表现力对话语调，支持零样本双人语音克隆。

相关链接

开始使用

功能特性

常见问题

1. 使用场景

2. API 使用指南

主要请求参数

2.1 系统预置音色

3. 音色管理与进阶使用

3.1 用户预置音色

4. 参考音频最佳实践

5. 使用示例 (Python SDK)

6. 支持模型列表

开始使用

功能特性

常见问题

​1. 使用场景

​2. API 使用指南

​主要请求参数

​2.1 系统预置音色

​3. 音色管理与进阶使用

​3.1 用户预置音色

​4. 参考音频最佳实践

​5. 使用示例 (Python SDK)

​6. 支持模型列表

1. 使用场景

2. API 使用指南

主要请求参数

2.1 系统预置音色

3. 音色管理与进阶使用

3.1 用户预置音色

4. 参考音频最佳实践

5. 使用示例 (Python SDK)

6. 支持模型列表