POST /v1/chat/completionsGPT-4.1
gpt-4.1GPT-4.1 是 OpenAI 强调代码、指令遵循和长上下文能力提升的一代模型。官方发布信息将它描述为在许多编程和指令密集型任务上强于 GPT-4o 的开发者模型。它的描述应突出代码可靠性和长上下文理解。
最大上下文
1MToken
最大输出
32.8KToken
发布日期
2025年4月14日
模态
GPT-4.1 价格
| 输入价格 | 输出价格 | 缓存读取 |
|---|---|---|
| $2/M | $8/M | $0.5/M |
GPT-4.1 API
GPT-4.1 基准测试
GPT-4.1
19.4
/100
Artificial Analysis 综合能力指数
Artificial Analysis 综合能力评分
指数分数
21.8
/100
Artificial Analysis 代码能力指数
Artificial Analysis 软件任务评分
指数分数
34.7
/100
Artificial Analysis 数学能力指数
Artificial Analysis 数学推理评分
指数分数
知识与推理
MMLU-Pro
高难度多任务知识评测
80.6%
GPQA
高阶科学问题求解
66.6%
HLE
广泛专家级考试集合
4.6%
代码与工程
LiveCodeBench
近期编程题评测
45.7%
SciCode
科学计算代码挑战
38.1%
Terminal-Bench Hard
高难度终端任务执行
13.6%
数学能力
MATH-500
高难度数学解题
91.3%
AIME
数学竞赛题
43.7%
AIME 2025
数学竞赛题
34.7%
指令遵循与 Agent 任务
IFBench
指令约束遵循
43.0%
AA-LCR
长上下文推理
61%
τ²-Bench
Agent 工作流任务
47.1%
指标来源 Artificial Analysis
关于 GPT-4.1 的常见问题
了解 GPT-4.1 的定位、适合处理的任务、主要优势、使用限制,以及在 TokenHub 中接入时需要注意的事项。
GPT-4.1 是什么,在 OpenAI 的模型产品线中处于什么位置?+
GPT-4.1 是 一款侧重指令遵循、工具调用和长上下文任务的高能力非推理 GPT 模型。它已从 ChatGPT 下线,但 API 可能仍可用;请以 TokenHub 当前页面为准。
GPT-4.1 最适合哪些任务?+
它适合处理大型代码库、严格遵循指令以及带工具调用的应用流程。上线前应使用有代表性的输入进行测试,并制定可衡量的验收标准。
团队为什么会选择 GPT-4.1,而不是更小或更旧的模型?+
它最实用的优势包括较强的长上下文处理、可靠遵循详细指令以及有效使用工具和函数调用。这些特点对严格遵循指令尤其有价值。
在依赖 GPT-4.1 之前应该验证什么?+
如果任务需要更深层的审慎推理、极低延迟是首要要求,或重要决策流程无法安排人工复核,可以考虑其他模型。生成代码在合并或部署前应经过测试、安全检查和人工审查。
GPT-4.1 在 TokenHub 中有哪些实用接入建议?+
在 TokenHub 中,请选择页面显示的 GPT-4.1 精确模型标识,使用账号文档中指定的接口,并通过 TokenHub 凭证完成认证。同时确认 TokenHub 页面是否提供应用所需的输入类型、工具行为和输出控制。
媒体与讨论
精选与此模型相关的公开视频和帖子。
X (Twitter)
Reddit
YouTube