Rate Limits - NoneLinear 技术文档

1. Rate Limits 概述
1.1 为什么需要限流？
1.2 核心限制指标
1.3 限制范围
2. 限流规则
2.1 免费模型
2.2 收费模型
3. 处理限流错误

1. Rate Limits 概述

为了保障服务的高可用性和资源的公平分配，NoneLinear 对 API 调用进行了频率限制（Rate Limits）。

1.1 为什么需要限流？

资源公平性：防止个别用户过度占用资源，影响他人体验。
系统稳定性：避免突发流量导致服务器过载或崩溃。
安全防护：防御恶意的刷量或 DDoS 攻击。

1.2 核心限制指标

RPM (Requests Per Minute)：每分钟允许的最大请求数。
RPD (Requests Per Day)：每天允许的最大请求数。
TPM (Tokens Per Minute)：每分钟允许消耗的最大 Token 数。
TPD (Tokens Per Day)：每天允许消耗的最大 Token 数。
IPM/IPD (Images Per Minute/Day)：针对生图模型的频率限制。

1.3 限制范围

账户维度：限流是针对您的账户进行的，而不是针对单个 API Key。
模型维度：不同模型的限流配额是独立计算的，例如超出 Qwen 的限流不会影响 DeepSeek 的使用。

2. 限流规则

2.1 免费模型

只要完成实名认证，即可使用全部免费模型。
免费模型具有固定的 Rate Limits 配额，适用于测试与个人使用。

2.2 收费模型

收费模型的配额会根据您的用户等级 (User Tier) 动态调整。
您的消费金额越高，系统会自动提升您的 RPM 和 TPM 配额。

3. 处理限流错误

当请求由于触发限流被拒绝时，API 会返回 429 Too Many Requests。 处理方式：

指数退避：在请求失败后，等待一段时间再重试，并逐渐增加等待间隔。
请求队列：在客户端增加缓冲区，平滑发送请求。
升级等级：通过充值并增加使用量来自动提升配额。

相关链接