GPT-4o

gpt-4o

GPT-4o 是 OpenAI GPT-4o 一代的多模态旗舰模型,支持文本和图像输入,并具备较强的通用智能。官方文档将它描述为适合广泛语言与视觉任务的高智能通用模型。在更看重多模态理解和自然交互,而不是最新推理栈的场景中,它仍然有价值。

最大上下文

128KToken

最大输出

16.4KToken

发布日期

2024年5月13日

模态

GPT-4o 价格

输入价格输出价格缓存读取
$2.5/M$10/M$1.25/M

GPT-4o API

POST /v1beta/models/{model}:generateContent

GPT-4o 基准测试

9.6

/100

Artificial Analysis 综合能力指数

Artificial Analysis 综合能力评分

指数分数

16.6

/100

Artificial Analysis 代码能力指数

Artificial Analysis 软件任务评分

指数分数

知识与推理

GPQA

高阶科学问题求解

52.1%

HLE

广泛专家级考试集合

2.9%

代码与工程

LiveCodeBench

近期编程题评测

31.7%

SciCode

科学计算代码挑战

33.1%

Terminal-Bench Hard

高难度终端任务执行

8.3%

数学能力

MATH-500

高难度数学解题

79.5%

AIME

数学竞赛题

11.7%

指令遵循与 Agent 任务

IFBench

指令约束遵循

36.0%

AA-LCR

长上下文推理

35%

τ²-Bench

Agent 工作流任务

28.9%

指标来源 Artificial Analysis

媒体与讨论

精选与此模型相关的公开视频和帖子。

X (Twitter)

View post on X
View post on X
View post on X

Reddit

YouTube

Watch on YouTube
Watch on YouTube
Watch on YouTube

关于 GPT-4o 的常见问题

了解 GPT-4o 的定位、适合处理的任务、主要优势、使用限制,以及在 TokenHub 中接入时需要注意的事项。

GPT-4o 是一款什么类型的模型?+

GPT-4o 是 OpenAI 较早一代的 Omni 模型,可处理通用文本和视觉理解任务,目前属于较旧的 API 选项。它已从 ChatGPT 下线,但 API 可能仍可用;请以 TokenHub 当前页面为准。

团队可以用 GPT-4o 做什么?+

它适合文本与图像输入分析、响应及时的交互式助手以及通用内容生成。上线前应使用有代表性的输入进行测试,并制定可衡量的验收标准。

GPT-4o 在哪些技术方面更有优势?+

它最实用的优势包括结合文本与图像的理解能力、广泛的通用能力以及响应自然的对话表现。这些特点对响应及时的交互式助手尤其有价值。

什么情况下应该选择其他模型,而不是 GPT-4o?+

如果新项目应采用提供商当前推荐的新一代模型、任务需要专门的推理模型,或重要决策流程无法安排人工复核,可以考虑其他模型。涉及事实、法律、财务、医疗或运营的重要结果,应由具备相关资质的人员复核。

通过 TokenHub 接入 GPT-4o 前需要检查什么?+

在 TokenHub 中,请选择页面显示的 GPT-4o 精确模型标识,使用账号文档中指定的接口,并通过 TokenHub 凭证完成认证。请查看 TokenHub 当前文档中的文本与图像输入支持情况,因为平台开放能力可能与提供商完整能力不同。