gemini-pro-vision

POST/v1/chat/completions

谷歌最新的人工智能模型gemini-pro视觉版，发布于2023年12月。数据库更新至2023年初。带有视觉识别能力，支持图片输入。支持最多12k tokens的上下文（输出4k tokens）。

请求参数

Header 参数

Content-Type

string

必需

示例值:

application/json

string

必需

示例值:

application/json

Authorization

string

可选

示例值:

Bearer {{YOUR_API_KEY}}

model

string

必需

要使用的模型的 ID。有关哪些模型适用于聊天 API 的详细信息，请参阅模型端点兼容性表。

messages

array [object {2}]

必需

以聊天格式生成聊天完成的消息。

role

string

可选

content

string

可选

temperature

integer

可选

使用什么采样温度，介于 0 和 2 之间。较高的值（如 0.8）将使输出更加随机，而较低的值（如 0.2）将使输出更加集中和确定。我们通常建议改变这个或top_p但不是两者。

top_p

integer

可选

一种替代温度采样的方法，称为核采样，其中模型考虑具有 top_p 概率质量的标记的结果。所以 0.1 意味着只考虑构成前 10% 概率质量的标记。我们通常建议改变这个或temperature但不是两者。

integer

可选

为每个输入消息生成多少个聊天完成选项。

stream

boolean

可选

如果设置，将发送部分消息增量，就像在 ChatGPT 中一样。当令牌可用时，令牌将作为纯数据服务器发送事件data: [DONE]发送，流由消息终止。有关示例代码，请参阅 OpenAI Cookbook 。

stop

string

可选

API 将停止生成更多令牌的最多 4 个序列。

max_tokens

integer

可选

聊天完成时生成的最大令牌数。输入标记和生成标记的总长度受模型上下文长度的限制。

presence_penalty

number

可选

-2.0 和 2.0 之间的数字。正值会根据到目前为止是否出现在文本中来惩罚新标记，从而增加模型谈论新主题的可能性。查看有关频率和存在惩罚的更多信息。

frequency_penalty

number

可选

-2.0 和 2.0 之间的数字。正值会根据新标记在文本中的现有频率对其进行惩罚，从而降低模型逐字重复同一行的可能性。查看有关频率和存在惩罚的更多信息。

logit_bias

null

可选

修改指定标记出现在完成中的可能性。接受一个 json 对象，该对象将标记（由标记器中的标记 ID 指定）映射到从 -100 到 100 的关联偏差值。从数学上讲，偏差会在采样之前添加到模型生成的 logits 中。确切的效果因模型而异，但 -1 和 1 之间的值应该会减少或增加选择的可能性；像 -100 或 100 这样的值应该导致相关令牌的禁止或独占选择。

user

string

可选

代表您的最终用户的唯一标识符，可以帮助 OpenAI 监控和检测滥用行为。了解更多。

{
  "model": "gemini-pro-vision",
  "stream": false,
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "分析这张图片"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png"
          }
        }
      ]
    }
  ],
  "max_tokens": 400
}

示例代码

返回响应

OK(200)

HTTP 状态码: 200

内容格式: JSONapplication/json

string

必需

object

string

必需

created

integer

必需

choices

array [object {3}]

必需

index

integer

可选

message

object

可选

finish_reason

string

可选

usage

object

必需

prompt_tokens

integer

必需

completion_tokens

integer

必需

total_tokens

integer

必需

{
  "id": "chatcmpl-89DVrzc3UcrQJ56vyg93vaWTqzW2L",
  "object": "chat.completion",
  "created": 1705051801,
  "model": "gemini-pro-vision",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": " 这是一张百度百科的logo，它的设计非常简单，但也很有特色。logo中的“百度”二字是用红色的大写字母书写的，而“百科”二字是用蓝色的楷书写成的。在“百度”二字的中间，有一个蓝色的爪子印，爪子印的形状非常可爱，也让整个logo看起来更加活泼。"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 90,
    "completion_tokens": 133,
    "total_tokens": 223
  }
}

最后修改时间： 8 个月前