ニュース 深掘り Opinion 研究 データ リソース イベント 概要

GPT-5.5登場:OpenAIの新世代エージェントモデル、Terminal-Bench 2.0で82.7%を達成

OpenAIがGPT-5.5を発表。Terminal-Bench 2.0で82.7%、GPQA Diamondで93.6%を記録。Kimi K2.6、GLM-5.1、Qwen 3.6 Plusとのベンチマーク比較で、新たなフロンティアを評価する。

OpenAIは公式にGPT-5.5を発表した。同社のエージェント型AI分野への最新の取り組みだ。このモデルはTerminal-Bench 2.0ベンチマークで82.7%、GPQA Diamond科学推論テストで93.6%を達成した1。この発表は、大規模言語モデル市場での競争が激化する中で行われた。中国のオープンソース替代モデルであるKimi K2.6、GLM-5.1、Qwen 3.6 Plusが急速に差を詰めている。

GPT-5.5は単なる対話型アシスタントではなく、プロのワークフロー向けに設計されたエージェント型モデルとして位置づけられている。OpenAIはシステムカードで、このモデルの核心となる優位性を一言でこうまとめている。「タスクをより早く理解し、より少ない指示で、ツールをより効果的に使い、自分の仕事を確認し、完了するまで続ける」2

主要指標:コーディング能力が群を抜く

ソフトウェアエンジニアリングのベンチマークでは、GPT-5.5が印象的なパフォーマンスを見せた。BenchLM.aiの包括的評価によると3、GPT-5.5は総合で89/100点を獲得し、テスト対象の全モデル中5位、ベンダー検証済みの16モデル中2位にランクインした。

特筆すべきはTerminal-Bench 2.0のスコアだ。82.7%という数字は、同等モデルの中で最も高いだけでなく、中国のオープンソース競合モデルであるKimi K2.6(66.7%)、GLM-5.1(63.5%)、Qwen 3.6 Plus(61.6%)と比較して、15ポイント以上の差をつけている。

表1:コーディング・ソフトウェアエンジニアリング比較 13

ベンチマークGPT-5.5Kimi K2.6GLM-5.1Qwen 3.6 Plus
SWE-Bench Pro58.6%58.6%58.4%56.6%
Terminal-Bench 2.082.7%66.7%63.5%61.6%
LiveCodeBench89.6%87.1%
SWE-Bench Verified80.2%78.8%

注目すべきは、広く引用されているソフトウェアエンジニアリングベンチマークであるSWE-Bench Proでは、GPT-5.5がKimi K2.6と58.6%で並んだことだ。GLM-5.1(58.4%)とQwen 3.6 Plus(56.6%)も僅差で追い、トップモデル間の差はわずか2ポイントにとどまっている。これは実用的なコーディングタスクでは、トップモデル間の差が縮まりつつあることを示唆している。

OpenAIは特に、Claude Opus 4.7のSWE-Bench Proスコアに「暗記の疑い」という注釈が付いていることを指摘し、一部の高スコアの信頼性に疑問を投げかけた。

推論と知識:中国モデルの反撃

GPT-5.5は端末タスクで圧倒的だが、純粋な推論・知識テストでは中国モデルも強い競争力を見せた。

GPQA Diamondは大学院レベルの科学問題回答能力を評価する。GPT-5.5は93.6%で首位だが、Kimi K2.6(90.5%)とQwen 3.6 Plus(90.4%)は差を3ポイント以内に詰めている。GLM-5.1の86.2%は低いが、4月7日のリリース日(GPT-5.5より2週間早い)を考慮すれば健闘したと言える。

表2:推論・知識比較 13

ベンチマークGPT-5.5Kimi K2.6GLM-5.1Qwen 3.6 Plus
GPQA Diamond93.6%90.5%86.2%90.4%
HLE(ツール使用)52.2%54.0%
AIME 202696.4%95.3%
MMLU-Pro88.5%

超難問テストであるHLE(Humanity’s Last Exam)では、ツール使用可の状態でKimi K2.6が54.0%を達成し、GPT-5.5の52.2%を上回った。数学競技AIME 2026では、Kimi K2.6(96.4%)とGLM-5.1(95.3%)がほぼ満点に近いスコアを記録した。

Qwen 3.6 Plusは知識テストMMLU-Proで88.5%を報告し、そのリーダーボードで4位につけている。

エージェント能力:ツール使用の差

GPT-5.5の核心となる売りは、自律的に計画し、ツールを呼び出し、タスク完了まで反復するエージェント能力だ。BenchLM.aiの評価では、GPT-5.5はエージェント型ツール使用カテゴリで99.2点を獲得し2位にランクインした。

OpenAIのシステムカードはこの能力を詳しく説明している。GPT-5.5は「タスクをより早く理解し、より少ない指示で、ツールをより効果的に使い、自分の仕事を確認し、完了するまで続ける」2

「単なる高速コーディングではない」と、NVIDIAのエンタープライズプラットフォーム担当副社長Justin BoitanoはOpenAIの公式ブログ記事で述べている1。「人々が根本的に異なるスピードで作業できるよう助ける、新しい働き方だ。」

OpenAIは、リリース前に約200の早期アクセスパートナーがモデルをテストしたことを明らかにした。コーディング、研究、データ分析、文書作成、複数ツールを横断するワークフローなどのユースケースに焦点を当てていた。

長いコンテキストと価格動向

表3:コンテキストウィンドウと価格比較 13

モデルコンテキストライセンスAPI入力価格(100万トークンあたり)
GPT-5.5100万独自~$2.50(推定)
Kimi K2.626.2万オープン(改変MIT)$0.60
GLM-5.120.3万オープン$1.40
Qwen 3.6 Plus100万オープン

コンテキストウィンドウも重要な戦場だ。GPT-5.5とQwen 3.6 Plusはともに100万トークンをサポートする一方、Kimi K2.6とGLM-5.1はそれぞれ26.2万トークン、20.3万トークンを提供する。

しかし価格面では、オープンソースモデルが圧倒的な優位性を見せる。Kimi K2.6のAPI入力価格は100万トークンあたりわずか$0.60、GLM-5.1は$1.40だ。GPT-5.5は正式な価格を発表していないが、市場の推定では約$2.50とされ、Kimiの4倍以上のコストとなる。

Pro版:推論時計算の可能性

GPT-5.5 Pro版は、推論時計算(test-time compute)の可能性を示している。並列推論スケーリングにより、Pro版はいくつかの超難問テストで改善を見せた。

  • HLE(ツール使用):52.2%から57.2%へ改善
  • FrontierMath Tier 1-3:51.7%から52.4%へ改善
  • FrontierMath Tier 4:35.4%から39.6%へ改善
  • GeneBench:25.0%から33.2%へ改善

GeneBenchは生物医学遺伝子解析ベンチマークで、非常に難易度が高い。強化されたPro版でさえ33.2%にとどまり、この分野の高い障壁を物語っている。

安全性とガードレール

OpenAIは、GPT-5.5に「これまで最も強力な安全策」を搭載したと強調している2。社内のExpert-SWEテストでは73.1%を達成し、機密性の高いエンジニアリングタスクを扱う際の信頼性を示した。

FrontierMathとARC-AGI結果 12

GPT-5.5はFrontierMath Tier 1-3問題で51.7%、Tier 4で35.4%を記録した。Pro版はそれぞれ52.4%と39.6%に押し上げた。

抽象推論ベンチマークARC-AGIでは、GPT-5.5はARC-AGI-1で95.0%、ARC-AGI-2で85.0%を達成した。これらの結果は、学習データを超えた一般化を要する新たな推論タスクでの強いパフォーマンスを示唆している。

その他のベンチマーク結果には、BixBenchで80.5%、ツールなしのHLEで41.4%、ツール使用可で52.2%への改善が含まれる。

参考文献

本記事で引用したデータと発言は、以下のソースで確認できる。

まとめ

GPT-5.5の登場は、エージェント型AIが概念から実用へ移行する転換点を示している。Terminal-Benchのような端末タスクでのOpenAIの明確なリードは、エンタープライズ市場での同社の地位を一時的に確保する。しかし、中国のオープンソースモデルが価格、特定の推論タスク、オープンなエコシステムで示す優位性は、競争のルールを変えつつある。

開発者にとって、選択はトレードオフの問題だ。OpenAIのエージェント能力に対価を支払うか、オープンソース替代モデルのコスト効率とカスタマイズ性を受け入れるか。答えはおそらく、具体的なユースケースと予算制約に依存する。

このモデルは現在、ChatGPT Plus加入者が利用可能で、APIアクセスは今後数週間かけて展開される予定だ。エンタープライズ顧客はOpenAIの営業チャネルを通じて早期アクセスをリクエストできる。

Footnotes

  1. OpenAI Official Blog — GPT-5.5発表、Terminal-Bench 2.0・GPQA Diamondベンチマーク、Justin Boitanoの引用を含む https://openai.com/index/introducing-gpt-5-5/ 2 3 4 5 6

  2. OpenAI GPT-5.5 System Card — 安全性評価、早期アクセスパートナーのフィードバック、安全措置の詳細 https://openai.com/index/gpt-5-5-system-card/ 2 3 4

  3. BenchLM.ai Leaderboard — GPT-5.5(2位)、Kimi 2.6(12位)、GLM-5.1(13位)、Qwen 3.6 Plus(18位)を含む包括的ベンチマークプラットフォーム https://benchlm.ai/ 2 3 4