Grok 4.20

grok-4.20

Grok-4.20 被三方模型卡描述为高速 xAI 推理模型,具备较强 Agentic Tool Calling、严格提示遵循、低幻觉和超大上下文能力。它面向长文分析、深度研究和多步骤 Agent 工作流。描述时应强调速度与长上下文推理结合,而不是只突出对话风格。

最大上下文

1MToken

最大输出

30KToken

发布日期

2026年3月9日

模态

Grok 4.20 价格

输入价格输出价格缓存读取
$1.25/M$2.5/M$0.2/M

Grok 4.20 API

POST /v1/chat/completions

Grok 4.20 基准测试

Grok 4.20 0309 (Reasoning)

36.5

/100

Artificial Analysis 综合能力指数

Artificial Analysis 综合能力评分

指数分数

42.2

/100

Artificial Analysis 代码能力指数

Artificial Analysis 软件任务评分

指数分数

知识与推理

GPQA

高阶科学问题求解

88.5%

HLE

广泛专家级考试集合

30%

代码与工程

SciCode

科学计算代码挑战

44.7%

Terminal-Bench Hard

高难度终端任务执行

40.9%

指令遵循与 Agent 任务

IFBench

指令约束遵循

82.9%

AA-LCR

长上下文推理

59%

τ²-Bench

Agent 工作流任务

96.5%

指标来源 Artificial Analysis

媒体与讨论

精选与此模型相关的公开视频和帖子。

X (Twitter)

View post on X
View post on X
View post on X

Reddit

YouTube

Watch on YouTube
Watch on YouTube
Watch on YouTube

关于 Grok 4.20 的常见问题

了解 Grok 4.20 的定位、适合处理的任务、主要优势、使用限制,以及在 TokenHub 中接入时需要注意的事项。

Grok 4.20 在提供商的模型家族中是什么定位?+

Grok 4.20 是 xAI 的高性能 Grok 4.20 模型,面向推理、长上下文和智能体工具调用。它处于测试阶段,上线前应验证延迟、输出一致性和受支持功能。

哪些生产场景适合 Grok 4.20?+

它适合可靠执行多步骤智能体流程、长文档和大型数据集分析以及复杂多步推理。上线前应使用有代表性的输入进行测试,并制定可衡量的验收标准。

Grok 4.20 在长文档和大型数据集分析方面有什么突出之处?+

它最实用的优势包括有效使用工具和函数调用、严格遵循提示词以及可调节的推理强度。这些特点对长文档和大型数据集分析尤其有价值。

使用 Grok 4.20 时需要注意哪些限制?+

如果应用需要已完全稳定的生产行为、任务足够简单,可使用非推理变体,或重要决策流程无法安排人工复核,可以考虑其他模型。涉及事实、法律、财务、医疗或运营的重要结果,应由具备相关资质的人员复核。

团队该如何在 TokenHub 中稳妥地开始使用 Grok 4.20?+

在 TokenHub 中,请选择页面显示的 Grok 4.20 精确模型标识,使用账号文档中指定的接口,并通过 TokenHub 凭证完成认证。请在 TokenHub 页面确认精确的 Grok 标识、可用推理控制、工具权限、支持的输入和当前测试或发布状态。