GPT-4.1

Name: GPT-4.1 model details and pricing dataset
Creator: TokenHub

gpt-4.1

GPT-4.1 是 OpenAI 强调代码、指令遵循和长上下文能力提升的一代模型。官方发布信息将它描述为在许多编程和指令密集型任务上强于 GPT-4o 的开发者模型。它的描述应突出代码可靠性和长上下文理解。

最大上下文

1MToken

最大输出

32.8KToken

发布日期

2025年4月14日

模态

GPT-4.1 价格

输入价格	输出价格	缓存读取
$2/M	$8/M	$0.5/M

GPT-4.1 API

POST /v1/chat/completions

GPT-4.1 基准测试

GPT-4.1

19.4

/100

Artificial Analysis 综合能力指数

Artificial Analysis 综合能力评分

指数分数

21.8

/100

Artificial Analysis 代码能力指数

Artificial Analysis 软件任务评分

指数分数

34.7

/100

Artificial Analysis 数学能力指数

Artificial Analysis 数学推理评分

指数分数

知识与推理

MMLU-Pro

高难度多任务知识评测

80.6%

GPQA

高阶科学问题求解

66.6%

HLE

广泛专家级考试集合

4.6%

代码与工程

LiveCodeBench

近期编程题评测

45.7%

SciCode

科学计算代码挑战

38.1%

Terminal-Bench Hard

高难度终端任务执行

13.6%

数学能力

MATH-500

高难度数学解题

91.3%

AIME

数学竞赛题

43.7%

AIME 2025

数学竞赛题

34.7%

指令遵循与 Agent 任务

IFBench

指令约束遵循

43.0%

AA-LCR

长上下文推理

61%

τ²-Bench

Agent 工作流任务

47.1%

指标来源 Artificial Analysis

关于 GPT-4.1 的常见问题

了解 GPT-4.1 的定位、适合处理的任务、主要优势、使用限制，以及在 TokenHub 中接入时需要注意的事项。

GPT-4.1 是什么，在 OpenAI 的模型产品线中处于什么位置？+

GPT-4.1 是一款侧重指令遵循、工具调用和长上下文任务的高能力非推理 GPT 模型。它已从 ChatGPT 下线，但 API 可能仍可用；请以 TokenHub 当前页面为准。

GPT-4.1 最适合哪些任务？+

它适合处理大型代码库、严格遵循指令以及带工具调用的应用流程。上线前应使用有代表性的输入进行测试，并制定可衡量的验收标准。

团队为什么会选择 GPT-4.1，而不是更小或更旧的模型？+

它最实用的优势包括较强的长上下文处理、可靠遵循详细指令以及有效使用工具和函数调用。这些特点对严格遵循指令尤其有价值。

在依赖 GPT-4.1 之前应该验证什么？+

如果任务需要更深层的审慎推理、极低延迟是首要要求，或重要决策流程无法安排人工复核，可以考虑其他模型。生成代码在合并或部署前应经过测试、安全检查和人工审查。

GPT-4.1 在 TokenHub 中有哪些实用接入建议？+

在 TokenHub 中，请选择页面显示的 GPT-4.1 精确模型标识，使用账号文档中指定的接口，并通过 TokenHub 凭证完成认证。同时确认 TokenHub 页面是否提供应用所需的输入类型、工具行为和输出控制。

GPT-4.1

GPT-4.1 价格

GPT-4.1 API

GPT-4.1 基准测试

相关模型

相关模型

媒体与讨论

X (Twitter)

Reddit

YouTube

关于 GPT-4.1 的常见问题

相关模型