新闻 深度 观点 研究 数据 资源 活动 关于

GPT-5.5 发布:OpenAI 全新 Agentic 模型登场,Terminal-Bench 突破 82.7%

OpenAI 发布 GPT-5.5,在 Terminal-Bench 2.0 上取得 82.7%,GPQA Diamond 93.6%。我们对比了 Kimi K2.6、GLM-5.1、Qwen 3.6 Plus 的评测数据,解读大模型竞争新格局。

OpenAI 于今日正式发布 GPT-5.51,这是该公司在 agentic AI 领域的最新尝试。该模型在 Terminal-Bench 2.0 基准测试中拿下 82.7% 的成绩,同时在 GPQA Diamond 科学推理测试中获得 93.6% 的高分1。这一发布正值大模型竞争进入白热化阶段,来自中国的 Kimi K2.6、GLM-5.1 和 Qwen 3.6 Plus 等开源模型正在快速逼近。

GPT-5.5 的定位并非单纯的聊天助手,而是面向专业工作流的 agentic 模型。OpenAI 在系统卡2 中将其核心优势总结为一句话:“更早理解任务、更少索取指导、更高效使用工具、主动检查并持续推进直至完成。“

关键数据:代码能力全面领先

在软件工程基准测试方面,GPT-5.5 交出了一份令人瞩目的成绩单。BenchLM.ai 的综合评估显示3,GPT-5.5 以 89/100 的总分位列所有测试模型的第 5 名,在 16 款经过厂商自主验证的模型中排名第 2。

最具代表性的是其在 Terminal-Bench 2.0 上的表现。82.7% 的得分不仅是同类模型中的最高值,更将中国最强的开源竞品 Kimi K2.6(66.7%)、GLM-5.1(63.5%)和 Qwen 3.6 Plus(61.6%)甩开了 15 个百分点以上。

表 1:代码与软件工程能力对比 13

BenchmarkGPT-5.5Kimi K2.6GLM-5.1Qwen 3.6 Plus
SWE-Bench Pro58.6%58.6%58.4%56.6%
Terminal-Bench 2.082.7%66.7%63.5%61.6%
LiveCodeBench89.6%87.1%
SWE-Bench Verified80.2%78.8%

值得注意的是,在 SWE-Bench Pro 这一被广泛引用的软件工程基准上,GPT-5.5 与 Kimi K2.6 以 58.6% 的成绩持平,而 GLM-5.1(58.4%)和 Qwen 3.6 Plus(56.6%)也紧随其后,差距仅为 2 个百分点。这表明在实际代码任务上,顶级模型之间的鸿沟正在缩小。

OpenAI 特别指出,Claude Opus 4.7 的 SWE-Bench Pro 成绩存在”记忆化迹象”的标注,这暗示了部分高得分的可信度存疑。

推理与知识:中国模型的反击

尽管 GPT-5.5 在终端任务上表现突出,但在纯推理和知识测试领域,中国模型展现出了强劲的竞争力。

GPQA Diamond 测试了研究生级别的科学问答能力。GPT-5.5 以 93.6% 的成绩位居榜首,但 Kimi K2.6(90.5%)和 Qwen 3.6 Plus(90.4%)的差距已经缩小到 3 个百分点以内。GLM-5.1 的 86.2% 虽然稍逊,但考虑到其发布时间为 4 月 7 日,比 GPT-5.5 早了半个月,这一表现仍然可圈可点。

表 2:推理与知识能力对比 13

BenchmarkGPT-5.5Kimi K2.6GLM-5.1Qwen 3.6 Plus
GPQA Diamond93.6%90.5%86.2%90.4%
HLE (with tools)52.2%54.0%
AIME 202696.4%95.3%
MMLU-Pro88.5%

在 HLE(Humanity’s Last Exam)这一超高难度测试中,Kimi K2.6 在启用工具的情况下以 54.0% 的成绩超过了 GPT-5.5 的 52.2%。数学竞赛测试 AIME 2026 中,Kimi K2.6(96.4%)和 GLM-5.1(95.3%)也都交出了接近满分的答卷。

Qwen 3.6 Plus 在 MMLU-Pro 知识测试中报告了 88.5% 的自测成绩,在该榜单上排名第 4。

Agentic 能力:工具使用的分水岭

GPT-5.5 的核心卖点在于 agentic 能力,即自主规划、调用工具并持续迭代直到任务完成的能力。BenchLM.ai 的评测显示3,GPT-5.5 在 agentic 工具使用类别中排名第 2,得分 99.2。

OpenAI 在官方系统卡2 中描述了这一能力:GPT-5.5 “更早理解任务、更少索取指导、更高效使用工具、主动检查并持续推进直至完成。”

NVIDIA 企业平台副总裁 Justin Boitano 在 OpenAI 的官方博客1 中表示:“这不只是更快的编码,而是一种全新的工作方式,帮助人们以根本不同的速度运转。”

OpenAI 透露,约 200 家早期合作伙伴在正式发布前对该模型进行了测试,主要应用场景包括编码、研究、数据分析、文档创建和跨工具工作流。

超长上下文与定价格局

表 3:上下文窗口与定价对比 3

ModelContextLicenseAPI Input Price (per 1M tokens)
GPT-5.51MProprietary~$2.50 (est.)
Kimi K2.6262KOpen (Modified MIT)$0.60
GLM-5.1203KOpen$1.40
Qwen 3.6 Plus1MOpen

上下文窗口是另一个关键战场。GPT-5.5 和 Qwen 3.6 Plus 均支持 100 万 token 的上下文,而 Kimi K2.6 和 GLM-5.1 分别为 26.2 万和 20.3 万。

但在定价方面,开源模型展现出了压倒性优势。Kimi K2.6 的 API 输入定价仅为每百万 token 0.60 美元,GLM-5.1 为 1.40 美元。GPT-5.5 虽然尚未公布正式定价,但市场预估其价格可能在 2.50 美元左右,是 Kimi 的四倍以上。

Pro 版本:测试时计算的潜力

GPT-5.5 Pro 版本展示了测试时计算(test-time compute)的潜力。通过并行推理扩展,Pro 版本在多项高难度测试中取得提升:

  • HLE(with tools):从 52.2% 提升至 57.2%
  • FrontierMath Tier 1-3:从 51.7% 提升至 52.4%
  • FrontierMath Tier 4:从 35.4% 提升至 39.6%
  • GeneBench:从 25.0% 提升至 33.2%

GeneBench 是一项生物医学基因分析基准,即使是增强后的 Pro 版本也仅获得 33.2%,显示出该领域的极高门槛。

安全与监管

OpenAI 强调 GPT-5.5 配备了”迄今为止最强的安全保障机制”2。在内部 Expert-SWE 测试中,该模型获得 73.1% 的成绩,表现出在处理敏感工程任务时的可靠性。

参考来源

结语

GPT-5.5 的发布标志着 agentic AI 从概念走向实用。OpenAI 凭借在 Terminal-Bench 等终端任务上的明显优势,暂时守住了企业级市场的护城河。但中国开源模型在定价、部分推理任务以及开放生态方面的优势,正在改变这场竞争的规则。

对于开发者而言,这是一个需要权衡的选择:付费获得 OpenAI 的 agentic 领先能力,还是拥抱开源模型的性价比与可定制性?答案或许取决于具体的应用场景和预算约束。

Footnotes

  1. OpenAI 官方博客 — GPT-5.5 发布公告,包含 Terminal-Bench 2.0、GPQA Diamond 等核心基准数据及 Justin Boitano 引言 https://openai.com/index/introducing-gpt-5-5/ 2 3 4 5

  2. OpenAI GPT-5.5 系统卡 — 安全评估、早期合作伙伴反馈及安全保障机制详情 https://openai.com/index/gpt-5-5-system-card/ 2 3

  3. BenchLM.ai 排行榜 — 综合评测平台,涵盖 GPT-5.5(#2)、Kimi 2.6(#12)、GLM-5.1(#13)、Qwen 3.6 Plus(#18)的多维度对比 https://benchlm.ai/ 2 3 4 5