1. 概述

多模态模型支持处理多种媒体类型,包括:
  1. 视觉理解:理解图片内容、OCR、图像描述。
  2. 视频分析:提取视频帧、理解视频内容、动作识别。
  3. 音频处理:语音识别、音频内容分析。
  4. 多模态融合:同时处理多种媒体类型的综合分析。

2. 支持模型概览

您可以访问 模型广场 查看所支持的多模态模型。

3. 使用方式

3.1 基本消息格式

多模态模型通过 messages 中的 content 字段传入多媒体内容。图片支持两种传入方式: 方式一:公网 URL
import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.nonelinear.com/v1",
    api_key=os.environ.get("Nonelinear_API_KEY"),
)

response = client.chat.completions.create(
    model="model-id",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请描述这张图片的内容"},
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image.jpg"}
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)
方式二:本地图片(Base64 编码)
import os
import base64
from openai import OpenAI

client = OpenAI(
    base_url="https://api.nonelinear.com/v1",
    api_key=os.environ.get("Nonelinear_API_KEY"),
)

# 读取并编码本地图片
with open("image.jpg", "rb") as f:
    b64_image = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="model-id",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请描述这张图片的内容"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{b64_image}"}
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)

3.2 通用参数说明

参数类型说明
typestring内容类型,可选值:text(文本)、image_url(图片)
textstringtypetext 时,填写文本内容
image_url.urlstring图片的公网 URL,或 data:{mime};base64,{base64数据} 格式的本地图片
提示:支持的图片格式:pngjpg/jpegwebp