Apr 23, 2026

GPT-5.5 发布：OpenAI 全新 Agentic 模型登场，Terminal-Bench 突破 82.7%

OpenAI 发布 GPT-5.5，在 Terminal-Bench 2.0 上取得 82.7%，GPQA Diamond 93.6%。我们对比了 Kimi K2.6、GLM-5.1、Qwen 3.6 Plus 的评测数据，解读大模型竞争新格局。

OpenAI 于今日正式发布 GPT-5.5¹，这是该公司在 agentic AI 领域的最新尝试。该模型在 Terminal-Bench 2.0 基准测试中拿下 82.7% 的成绩，同时在 GPQA Diamond 科学推理测试中获得 93.6% 的高分¹。这一发布正值大模型竞争进入白热化阶段，来自中国的 Kimi K2.6、GLM-5.1 和 Qwen 3.6 Plus 等开源模型正在快速逼近。

GPT-5.5 的定位并非单纯的聊天助手，而是面向专业工作流的 agentic 模型。OpenAI 在系统卡² 中将其核心优势总结为一句话：“更早理解任务、更少索取指导、更高效使用工具、主动检查并持续推进直至完成。“

关键数据：代码能力全面领先

在软件工程基准测试方面，GPT-5.5 交出了一份令人瞩目的成绩单。BenchLM.ai 的综合评估显示³，GPT-5.5 以 89/100 的总分位列所有测试模型的第 5 名，在 16 款经过厂商自主验证的模型中排名第 2。

最具代表性的是其在 Terminal-Bench 2.0 上的表现。82.7% 的得分不仅是同类模型中的最高值，更将中国最强的开源竞品 Kimi K2.6（66.7%）、GLM-5.1（63.5%）和 Qwen 3.6 Plus（61.6%）甩开了 15 个百分点以上。

表 1：代码与软件工程能力对比 ¹³

Benchmark	GPT-5.5	Kimi K2.6	GLM-5.1	Qwen 3.6 Plus
SWE-Bench Pro	58.6%	58.6%	58.4%	56.6%
Terminal-Bench 2.0	82.7%	66.7%	63.5%	61.6%
LiveCodeBench	—	89.6%	—	87.1%
SWE-Bench Verified	—	80.2%	—	78.8%

值得注意的是，在 SWE-Bench Pro 这一被广泛引用的软件工程基准上，GPT-5.5 与 Kimi K2.6 以 58.6% 的成绩持平，而 GLM-5.1（58.4%）和 Qwen 3.6 Plus（56.6%）也紧随其后，差距仅为 2 个百分点。这表明在实际代码任务上，顶级模型之间的鸿沟正在缩小。

OpenAI 特别指出，Claude Opus 4.7 的 SWE-Bench Pro 成绩存在”记忆化迹象”的标注，这暗示了部分高得分的可信度存疑。

推理与知识：中国模型的反击

尽管 GPT-5.5 在终端任务上表现突出，但在纯推理和知识测试领域，中国模型展现出了强劲的竞争力。

GPQA Diamond 测试了研究生级别的科学问答能力。GPT-5.5 以 93.6% 的成绩位居榜首，但 Kimi K2.6（90.5%）和 Qwen 3.6 Plus（90.4%）的差距已经缩小到 3 个百分点以内。GLM-5.1 的 86.2% 虽然稍逊，但考虑到其发布时间为 4 月 7 日，比 GPT-5.5 早了半个月，这一表现仍然可圈可点。

表 2：推理与知识能力对比 ¹³

Benchmark	GPT-5.5	Kimi K2.6	GLM-5.1	Qwen 3.6 Plus
GPQA Diamond	93.6%	90.5%	86.2%	90.4%
HLE (with tools)	52.2%	54.0%	—	—
AIME 2026	—	96.4%	95.3%	—
MMLU-Pro	—	—	—	88.5%

在 HLE（Humanity’s Last Exam）这一超高难度测试中，Kimi K2.6 在启用工具的情况下以 54.0% 的成绩超过了 GPT-5.5 的 52.2%。数学竞赛测试 AIME 2026 中，Kimi K2.6（96.4%）和 GLM-5.1（95.3%）也都交出了接近满分的答卷。

Qwen 3.6 Plus 在 MMLU-Pro 知识测试中报告了 88.5% 的自测成绩，在该榜单上排名第 4。

Agentic 能力：工具使用的分水岭

GPT-5.5 的核心卖点在于 agentic 能力，即自主规划、调用工具并持续迭代直到任务完成的能力。BenchLM.ai 的评测显示³，GPT-5.5 在 agentic 工具使用类别中排名第 2，得分 99.2。

OpenAI 在官方系统卡² 中描述了这一能力：GPT-5.5 “更早理解任务、更少索取指导、更高效使用工具、主动检查并持续推进直至完成。”

NVIDIA 企业平台副总裁 Justin Boitano 在 OpenAI 的官方博客¹ 中表示：“这不只是更快的编码，而是一种全新的工作方式，帮助人们以根本不同的速度运转。”

OpenAI 透露，约 200 家早期合作伙伴在正式发布前对该模型进行了测试，主要应用场景包括编码、研究、数据分析、文档创建和跨工具工作流。

超长上下文与定价格局

表 3：上下文窗口与定价对比 ³

Model	Context	License	API Input Price (per 1M tokens)
GPT-5.5	1M	Proprietary	~$2.50 (est.)
Kimi K2.6	262K	Open (Modified MIT)	$0.60
GLM-5.1	203K	Open	$1.40
Qwen 3.6 Plus	1M	Open	—

上下文窗口是另一个关键战场。GPT-5.5 和 Qwen 3.6 Plus 均支持 100 万 token 的上下文，而 Kimi K2.6 和 GLM-5.1 分别为 26.2 万和 20.3 万。

但在定价方面，开源模型展现出了压倒性优势。Kimi K2.6 的 API 输入定价仅为每百万 token 0.60 美元，GLM-5.1 为 1.40 美元。GPT-5.5 虽然尚未公布正式定价，但市场预估其价格可能在 2.50 美元左右，是 Kimi 的四倍以上。

Pro 版本：测试时计算的潜力

GPT-5.5 Pro 版本展示了测试时计算（test-time compute）的潜力。通过并行推理扩展，Pro 版本在多项高难度测试中取得提升：

HLE（with tools）：从 52.2% 提升至 57.2%
FrontierMath Tier 1-3：从 51.7% 提升至 52.4%
FrontierMath Tier 4：从 35.4% 提升至 39.6%
GeneBench：从 25.0% 提升至 33.2%

GeneBench 是一项生物医学基因分析基准，即使是增强后的 Pro 版本也仅获得 33.2%，显示出该领域的极高门槛。

安全与监管

OpenAI 强调 GPT-5.5 配备了”迄今为止最强的安全保障机制”²。在内部 Expert-SWE 测试中，该模型获得 73.1% 的成绩，表现出在处理敏感工程任务时的可靠性。

参考来源

结语

GPT-5.5 的发布标志着 agentic AI 从概念走向实用。OpenAI 凭借在 Terminal-Bench 等终端任务上的明显优势，暂时守住了企业级市场的护城河。但中国开源模型在定价、部分推理任务以及开放生态方面的优势，正在改变这场竞争的规则。

对于开发者而言，这是一个需要权衡的选择：付费获得 OpenAI 的 agentic 领先能力，还是拥抱开源模型的性价比与可定制性？答案或许取决于具体的应用场景和预算约束。

OpenAI 官方博客 — GPT-5.5 发布公告，包含 Terminal-Bench 2.0、GPQA Diamond 等核心基准数据及 Justin Boitano 引言 https://openai.com/index/introducing-gpt-5-5/ ↩ ↩² ↩³ ↩⁴ ↩⁵
OpenAI GPT-5.5 系统卡 — 安全评估、早期合作伙伴反馈及安全保障机制详情 https://openai.com/index/gpt-5-5-system-card/ ↩ ↩² ↩³
BenchLM.ai 排行榜 — 综合评测平台，涵盖 GPT-5.5（#2）、Kimi 2.6（#12）、GLM-5.1（#13）、Qwen 3.6 Plus（#18）的多维度对比 https://benchlm.ai/ ↩ ↩² ↩³ ↩⁴ ↩⁵