模型广场

在一个生产级目录中查看 AI 模型价格、能力、端点和供应商覆盖。

OpenAI

GPT-5.5

gpt-5.5

GPT-5.5 被 OpenAI 描述为更智能的前沿模型,面向代码、研究、数据分析和专业知识工作。官方发布信息强调它在能力、速度和文档/结构化分析任务上的提升。它的描述应聚焦广泛的专业智能,而不是某一个单一细分场景。

最大上下文

1.1M

最大输出

128K

发布日期

2026年4月23日

输入$5 / 百万 Token
输出$30 / 百万 Token
缓存读取$0.5 / 百万 Token

DeepSeek

DeepSeek V4 Pro

deepseek-v4-pro

DeepSeek V4 Pro 被描述为大规模 MoE 模型,拥有 1.6T 总参数与 49B 激活参数,并支持 1M token 上下文窗口,适合处理超长输入。官方和三方模型卡更强调它在高级推理、代码任务和长周期 Agent 工作流中的能力,而不是普通聊天。相比 V4 Flash,Pro 更偏能力上限,适合大型代码库分析、复杂研究资料综合、多步骤自动化等需要深度推理的任务。

最大上下文

1M

最大输出

384K

发布日期

2026年4月24日

输入$1.8 / 百万 Token
输出$3.5 / 百万 Token
缓存读取$0.015 / 百万 Token

DeepSeek

DeepSeek V4 Flash

deepseek-v4-flash

DeepSeek V4 Flash 保留了 V4 系列的 1M token 长上下文能力,但采用更轻量的 MoE 配置,常见模型卡描述为 284B 总参数、13B 激活参数。它的重点不是最大推理深度,而是更快推理、更低调用成本和更适合生产环境的吞吐量。对于高频请求、批量处理和长上下文但不一定需要最高推理强度的任务,Flash 会比 Pro 更合适。

最大上下文

1M

最大输出

384K

发布日期

2026年4月24日

输入$0.15 / 百万 Token
输出$0.3 / 百万 Token
缓存读取$0.003 / 百万 Token

Alibaba

Qwen3.7 Plus

qwen3.7-plus

Qwen3.7 Plus 延续 Qwen3.7 面向 Agent 的设计方向,但更偏性价比。三方模型卡描述它支持文本和图片输入,并强化视觉语言能力,以及 GUI、移动端导航、视觉参考等混合 Agent 任务。它适合需要 Qwen3.7 新一代能力,但不一定需要 Max 档位成本的场景。

最大上下文

1M

最大输出

64K

发布日期

2026年6月2日

输入$0.2857 / 百万 Token
输出$1.1429 / 百万 Token
缓存读取$0.0571 / 百万 Token

OpenAI

GPT-4.1

gpt-4.1

GPT-4.1 是 OpenAI 强调代码、指令遵循和长上下文能力提升的一代模型。官方发布信息将它描述为在许多编程和指令密集型任务上强于 GPT-4o 的开发者模型。它的描述应突出代码可靠性和长上下文理解。

最大上下文

1M

最大输出

32.8K

发布日期

2025年4月14日

输入$2 / 百万 Token
输出$8 / 百万 Token
缓存读取$0.5 / 百万 Token

OpenAI

GPT-4.1 Mini

gpt-4.1-mini

GPT-4.1 Mini 将 GPT-4.1 系列的代码和指令遵循能力,以更快、更低成本的形式提供出来。它适合高频开发者工具、结构化生成、信息抽取,以及不需要完整大模型能力的产品功能。它的核心差异是保留 4.1 一代任务纪律性的同时提升生产效率。

最大上下文

1M

最大输出

32.8K

发布日期

2025年4月14日

输入$0.4 / 百万 Token
输出$1.6 / 百万 Token
缓存读取$0.1 / 百万 Token

OpenAI

GPT-4o

gpt-4o

GPT-4o 是 OpenAI GPT-4o 一代的多模态旗舰模型,支持文本和图像输入,并具备较强的通用智能。官方文档将它描述为适合广泛语言与视觉任务的高智能通用模型。在更看重多模态理解和自然交互,而不是最新推理栈的场景中,它仍然有价值。

最大上下文

128K

最大输出

16.4K

发布日期

2024年5月13日

输入$2.5 / 百万 Token
输出$10 / 百万 Token
缓存读取$1.25 / 百万 Token

OpenAI

GPT-4o Mini

gpt-4o-mini

GPT-4o Mini 是 GPT-4o 家族中的快速、低成本小模型。OpenAI 文档将其定位为面向聚焦任务的模型,支持文本和图像输入、结构化输出、微调和蒸馏工作流。它更适合被介绍为轻量级多模态生产模型,而不是 GPT-4o 的简单缩小版。

最大上下文

128K

最大输出

16.4K

发布日期

2024年7月18日

输入$0.15 / 百万 Token
输出$0.6 / 百万 Token
缓存读取$0.075 / 百万 Token

OpenAI

GPT-5.3 Chat

gpt-5.3-chat

gpt-5.3-chat 是 GPT-5.3 Instant 在 API 中的模型名称,主要对应 ChatGPT 中用于日常对话的快照版本。OpenAI 对该版本的定位是让普通对话更流畅、更直接、更有帮助,并提升答案准确性、联网搜索时的上下文组织能力,同时减少不必要的免责声明、绕行表达和过度谨慎措辞。需要注意的是,官方 API 文档已将该模型标记为 deprecated,更推荐使用更新的 GPT 模型。

最大上下文

128K

最大输出

16.4K

发布日期

2026年3月3日

输入$1.75 / 百万 Token
输出$14 / 百万 Token
缓存读取$0.175 / 百万 Token

OpenAI

GPT-5.3 Codex

gpt-5.3-codex

gpt-5.3-codex 是 OpenAI 面向 Codex 和类似开发环境的 Agentic Coding 模型。它将前沿软件工程能力与更广泛的推理和专业知识能力结合起来,支持可配置的 reasoning effort,并在官方模型页中列出 400K 上下文窗口和 128K 最大输出。OpenAI 对它的定位不只是写代码和审查代码,而是进一步支持电脑使用、终端任务、Web 应用迭代和长周期真实工程任务。

最大上下文

400K

最大输出

128K

发布日期

2026年2月5日

输入$1.75 / 百万 Token
输出$14 / 百万 Token
缓存读取$0.175 / 百万 Token

OpenAI

GPT-5.4

gpt-5.4

GPT-5.4 被 OpenAI 定位为兼具能力和效率的前沿模型,面向专业工作。官方资料强调代码、原生计算机使用、表格/文档/演示文稿工作流、事实性改进和大上下文能力。它适合被介绍为把推理能力和真实生产力任务连接起来的实用工作模型。

最大上下文

1.1M

最大输出

128K

发布日期

2026年3月5日

输入$2.5 / 百万 Token
输出$15 / 百万 Token
缓存读取$0.25 / 百万 Token

OpenAI

GPT-5.4 Mini

gpt-5.4-mini

GPT-5.4 Mini 是 GPT-5.4 家族中更小、更快的版本。OpenAI 文档将 mini 模型定位为低延迟工作负载,同时保留代码、工具调用、多模态推理和较强指令遵循。它适合边界清晰的生产任务、子 Agent,以及需要大量快速调用的应用。

最大上下文

400K

最大输出

128K

发布日期

2026年3月17日

输入$0.75 / 百万 Token
输出$4.5 / 百万 Token
缓存读取$0.075 / 百万 Token

OpenAI

GPT-5.4 Nano

gpt-5.4-nano

GPT-5.4 Nano 是 GPT-5.4 中成本最低、体量最小的版本,适合大量简单任务。OpenAI 的模型说明将 nano 模型与低延迟和成本效率关联,而不是最大推理深度。它更适合分类、路由、抽取、轻量生成等可预测工作流。

最大上下文

400K

最大输出

128K

发布日期

2026年3月17日

输入$0.2 / 百万 Token
输出$1.25 / 百万 Token
缓存读取$0.02 / 百万 Token

OpenAI

GPT-5.4 Pro

gpt-5.4-pro

GPT-5.4 Pro 是 GPT-5.4 中更强调精度和输出质量的高阶版本,面向要求更高的专业任务。OpenAI 的模型说明将 Pro 与标准版区分在更强推理和更高准确性预期上。在模型列表中,它适合被描述为复杂分析、高难度代码和高要求知识工作的选择。

最大上下文

1.1M

最大输出

128K

发布日期

2026年3月5日

输入$30 / 百万 Token
输出$180 / 百万 Token

OpenAI

GPT-5.5 Pro

gpt-5.5-pro

GPT-5.5 Pro 是 OpenAI GPT-5.5 一代中使用更多计算资源的高阶版本,适合答案质量比速度更重要的高难度专业任务。OpenAI 资料将 Pro 档描述为会“思考得更深”,在代码、研究、数据分析和文档密集型工作中追求更高精度。它应被定位为面向复杂推理和专业交付的模型,而不是日常聊天模型。

最大上下文

1.1M

最大输出

128K

发布日期

2026年4月23日

输入$30 / 百万 Token
输出$180 / 百万 Token

Minimax

MiniMax M2.5

MiniMax-M2.5

MiniMax M2.5 被定位为面向真实生产力场景的模型,并在复杂数字环境中训练。官方资料强调它在代码、Agentic Tool Use、搜索和办公任务上的提升,把早期代码能力扩展到 Word、Excel、PowerPoint 等工作流。它的重点不是单纯语言流畅度,而是在复杂实际流程中的执行能力。

最大上下文

204.8K

最大输出

131.1K

发布日期

2026年2月12日

输入$0.3 / 百万 Token
输出$1.2 / 百万 Token
缓存读取$0.03 / 百万 Token

Minimax

MiniMax M2.7

MiniMax-M2.7

MiniMax M2.7 被介绍为面向生产力和工程任务的模型,强调自主工作流、多 Agent 协作、实时调试和文档交付。公开描述提到根因分析、财务建模,以及 Word/Excel/PowerPoint 类完整文档生成。它更适合被写成“应用型工作模型”,而不是普通聊天或写作模型。

最大上下文

204.8K

最大输出

131.1K

发布日期

2026年3月18日

输入$0.3 / 百万 Token
输出$1.2 / 百万 Token
缓存读取$0.06 / 百万 Token

Minimax

MiniMax M3

MiniMax-M3

MiniMax M3 被描述为前沿多模态基座模型,支持 1M token 上下文,面向长周期 Agent 工作、代码任务和工具调用。模型卡强调 MiniMax Sparse Attention,以及相比上一代在超长上下文成本上的显著降低。它更适合作为面向生产环境的多模态 Agent 模型,用于大上下文、软件任务和协作工作流。

最大上下文

512K

最大输出

128K

发布日期

2026年6月1日

输入$0.6 / 百万 Token
输出$2.4 / 百万 Token
缓存读取$0.12 / 百万 Token

Anthropic

Claude Fable 5

claude-fable-5

Claude Fable 5 被介绍为 Mythos 级别的 Claude 模型,面向更有野心、持续时间更长的项目。相关页面强调自主知识工作、软件工程、视觉、记忆,以及与子 Agent 协同长时间工作的能力。它的描述应更像“项目级协作者”,而不是短轮次助手。

最大上下文

1M

最大输出

128K

发布日期

2026年6月9日

输入$10 / 百万 Token
输出$50 / 百万 Token
缓存读取$1 / 百万 Token

Anthropic

Claude Haiku 4.5

claude-haiku-4.5

Claude Haiku 4.5 是 Anthropic 更快、更具成本效率的模型,但在代码、计算机使用和 Agent 任务上表现很强。官方资料将部分能力与早期 Sonnet 级表现进行对比,同时强调速度和价格优势。它适合被描述为面向快速 Agent 应用的紧凑型生产模型。

最大上下文

200K

最大输出

64K

发布日期

2025年10月15日

输入$1 / 百万 Token
输出$5 / 百万 Token
缓存读取$0.1 / 百万 Token

Anthropic

Claude Opus 4.5

claude-opus-4.5

Claude Opus 4.5 属于 Claude Opus 4 一代的高能力模型,模型卡强调困难推理、代码和 Agentic Work。它虽然低于更新的 Opus 版本,但仍代表当代 Claude 的高端能力档位。描述时不应把它写成普通聊天模型,而应强调深度工作和可靠性。

最大上下文

200K

最大输出

64K

发布日期

2025年11月24日

输入$5 / 百万 Token
输出$25 / 百万 Token
缓存读取$0.5 / 百万 Token

热门模型推荐

从实时目录中优先查看高关注模型,再进入详情页比较上下文、端点和实际价格。

OpenAI

GPT-5.5

GPT-5.5 被 OpenAI 描述为更智能的前沿模型,面向代码、研究、数据分析和专业知识工作。官方发布信息强调它在能力、速度和文档/结构化分析任务上的提升。它的描述应聚焦广泛的专业智能,而不是某一个单一细分场景。

最大上下文

1.1M

输入价格

$5 / 百万 Token

查看模型

DeepSeek

DeepSeek V4 Pro

DeepSeek V4 Pro 被描述为大规模 MoE 模型,拥有 1.6T 总参数与 49B 激活参数,并支持 1M token 上下文窗口,适合处理超长输入。官方和三方模型卡更强调它在高级推理、代码任务和长周期 Agent 工作流中的能力,而不是普通聊天。相比 V4 Flash,Pro 更偏能力上限,适合大型代码库分析、复杂研究资料综合、多步骤自动化等需要深度推理的任务。

最大上下文

1M

输入价格

$1.8 / 百万 Token

查看模型

DeepSeek

DeepSeek V4 Flash

DeepSeek V4 Flash 保留了 V4 系列的 1M token 长上下文能力,但采用更轻量的 MoE 配置,常见模型卡描述为 284B 总参数、13B 激活参数。它的重点不是最大推理深度,而是更快推理、更低调用成本和更适合生产环境的吞吐量。对于高频请求、批量处理和长上下文但不一定需要最高推理强度的任务,Flash 会比 Pro 更合适。

最大上下文

1M

输入价格

$0.15 / 百万 Token

查看模型

Alibaba

Qwen3.7 Plus

Qwen3.7 Plus 延续 Qwen3.7 面向 Agent 的设计方向,但更偏性价比。三方模型卡描述它支持文本和图片输入,并强化视觉语言能力,以及 GUI、移动端导航、视觉参考等混合 Agent 任务。它适合需要 Qwen3.7 新一代能力,但不一定需要 Max 档位成本的场景。

最大上下文

1M

输入价格

$0.2857 / 百万 Token

查看模型

OpenAI

GPT-4.1

GPT-4.1 是 OpenAI 强调代码、指令遵循和长上下文能力提升的一代模型。官方发布信息将它描述为在许多编程和指令密集型任务上强于 GPT-4o 的开发者模型。它的描述应突出代码可靠性和长上下文理解。

最大上下文

1M

输入价格

$2 / 百万 Token

查看模型

OpenAI

GPT-4.1 Mini

GPT-4.1 Mini 将 GPT-4.1 系列的代码和指令遵循能力,以更快、更低成本的形式提供出来。它适合高频开发者工具、结构化生成、信息抽取,以及不需要完整大模型能力的产品功能。它的核心差异是保留 4.1 一代任务纪律性的同时提升生产效率。

最大上下文

1M

输入价格

$0.4 / 百万 Token

查看模型

模型对比

与选定的相邻目录模型快速对比。

模型目录常见问题

快速了解如何在 TokenHub 目录中选择、比较和使用模型。

应该如何从列表中选择模型?

+

先看你的具体任务。可以按供应商、标签、端点类型和计费分组筛选,再比较上下文长度、最大输出、模态能力以及输入或输出价格。

实际价格是什么意思?

+

实际价格会把当前计费分组倍率应用到模型价格数据上,帮助你估算所使用分组下真实的输入、输出或按次调用成本。

这些模型都可以通过 API 端点使用吗?

+

可以进入模型详情页查看支持的端点类型和文档链接。可用性会因模型、供应商和当前路由配置而不同。

为什么上下文窗口和最大输出很重要?

+

上下文窗口决定模型能读取多少提示词和对话历史;最大输出决定单次响应能生成多少内容,对长文写作、代码和文档任务尤其重要。