多模态模型 (Multimodal)

1. 概述

多模态模型支持处理多种媒体类型，包括：

视觉理解：理解图片内容、OCR、图像描述。
视频分析：提取视频帧、理解视频内容、动作识别。
音频处理：语音识别、音频内容分析。
多模态融合：同时处理多种媒体类型的综合分析。

2. 支持模型概览

您可以访问 模型广场 查看所支持的多模态模型。

3. 使用方式

3.1 基本消息格式

多模态模型通过 messages 中的 content 字段传入多媒体内容。图片支持两种传入方式： 方式一：公网 URL

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.nonelinear.com/v1",
    api_key=os.environ.get("Nonelinear_API_KEY"),
)

response = client.chat.completions.create(
    model="model-id",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请描述这张图片的内容"},
                {
                    "type": "image_url",
                    "image_url": {"url": "https://example.com/image.jpg"}
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)

方式二：本地图片（Base64 编码）

import os
import base64
from openai import OpenAI

client = OpenAI(
    base_url="https://api.nonelinear.com/v1",
    api_key=os.environ.get("Nonelinear_API_KEY"),
)

# 读取并编码本地图片
with open("image.jpg", "rb") as f:
    b64_image = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="model-id",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请描述这张图片的内容"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{b64_image}"}
                }
            ]
        }
    ]
)
print(response.choices[0].message.content)

3.2 通用参数说明

参数	类型	说明
`type`	string	内容类型，可选值：`text`（文本）、`image_url`（图片）
`text`	string	当 `type` 为 `text` 时，填写文本内容
`image_url.url`	string	图片的公网 URL，或 `data:{mime};base64,{base64数据}` 格式的本地图片

提示：支持的图片格式：png、jpg/jpeg、webp。

开始使用

功能特性

常见问题

1. 概述

2. 支持模型概览

3. 使用方式

3.1 基本消息格式

3.2 通用参数说明

开始使用

功能特性

常见问题

​1. 概述

​2. 支持模型概览

​3. 使用方式

​3.1 基本消息格式

​3.2 通用参数说明

1. 概述

2. 支持模型概览

3. 使用方式

3.1 基本消息格式

3.2 通用参数说明