OpenAIは公式にGPT-5.5を発表した。同社のエージェント型AI分野への最新の取り組みだ。このモデルはTerminal-Bench 2.0ベンチマークで82.7%、GPQA Diamond科学推論テストで93.6%を達成した1。この発表は、大規模言語モデル市場での競争が激化する中で行われた。中国のオープンソース替代モデルであるKimi K2.6、GLM-5.1、Qwen 3.6 Plusが急速に差を詰めている。
GPT-5.5は単なる対話型アシスタントではなく、プロのワークフロー向けに設計されたエージェント型モデルとして位置づけられている。OpenAIはシステムカードで、このモデルの核心となる優位性を一言でこうまとめている。「タスクをより早く理解し、より少ない指示で、ツールをより効果的に使い、自分の仕事を確認し、完了するまで続ける」2
主要指標:コーディング能力が群を抜く
ソフトウェアエンジニアリングのベンチマークでは、GPT-5.5が印象的なパフォーマンスを見せた。BenchLM.aiの包括的評価によると3、GPT-5.5は総合で89/100点を獲得し、テスト対象の全モデル中5位、ベンダー検証済みの16モデル中2位にランクインした。
特筆すべきはTerminal-Bench 2.0のスコアだ。82.7%という数字は、同等モデルの中で最も高いだけでなく、中国のオープンソース競合モデルであるKimi K2.6(66.7%)、GLM-5.1(63.5%)、Qwen 3.6 Plus(61.6%)と比較して、15ポイント以上の差をつけている。
| ベンチマーク | GPT-5.5 | Kimi K2.6 | GLM-5.1 | Qwen 3.6 Plus |
|---|---|---|---|---|
| SWE-Bench Pro | 58.6% | 58.6% | 58.4% | 56.6% |
| Terminal-Bench 2.0 | 82.7% | 66.7% | 63.5% | 61.6% |
| LiveCodeBench | — | 89.6% | — | 87.1% |
| SWE-Bench Verified | — | 80.2% | — | 78.8% |
注目すべきは、広く引用されているソフトウェアエンジニアリングベンチマークであるSWE-Bench Proでは、GPT-5.5がKimi K2.6と58.6%で並んだことだ。GLM-5.1(58.4%)とQwen 3.6 Plus(56.6%)も僅差で追い、トップモデル間の差はわずか2ポイントにとどまっている。これは実用的なコーディングタスクでは、トップモデル間の差が縮まりつつあることを示唆している。
OpenAIは特に、Claude Opus 4.7のSWE-Bench Proスコアに「暗記の疑い」という注釈が付いていることを指摘し、一部の高スコアの信頼性に疑問を投げかけた。
推論と知識:中国モデルの反撃
GPT-5.5は端末タスクで圧倒的だが、純粋な推論・知識テストでは中国モデルも強い競争力を見せた。
GPQA Diamondは大学院レベルの科学問題回答能力を評価する。GPT-5.5は93.6%で首位だが、Kimi K2.6(90.5%)とQwen 3.6 Plus(90.4%)は差を3ポイント以内に詰めている。GLM-5.1の86.2%は低いが、4月7日のリリース日(GPT-5.5より2週間早い)を考慮すれば健闘したと言える。
| ベンチマーク | GPT-5.5 | Kimi K2.6 | GLM-5.1 | Qwen 3.6 Plus |
|---|---|---|---|---|
| GPQA Diamond | 93.6% | 90.5% | 86.2% | 90.4% |
| HLE(ツール使用) | 52.2% | 54.0% | — | — |
| AIME 2026 | — | 96.4% | 95.3% | — |
| MMLU-Pro | — | — | — | 88.5% |
超難問テストであるHLE(Humanity’s Last Exam)では、ツール使用可の状態でKimi K2.6が54.0%を達成し、GPT-5.5の52.2%を上回った。数学競技AIME 2026では、Kimi K2.6(96.4%)とGLM-5.1(95.3%)がほぼ満点に近いスコアを記録した。
Qwen 3.6 Plusは知識テストMMLU-Proで88.5%を報告し、そのリーダーボードで4位につけている。
エージェント能力:ツール使用の差
GPT-5.5の核心となる売りは、自律的に計画し、ツールを呼び出し、タスク完了まで反復するエージェント能力だ。BenchLM.aiの評価では、GPT-5.5はエージェント型ツール使用カテゴリで99.2点を獲得し2位にランクインした。
OpenAIのシステムカードはこの能力を詳しく説明している。GPT-5.5は「タスクをより早く理解し、より少ない指示で、ツールをより効果的に使い、自分の仕事を確認し、完了するまで続ける」2
「単なる高速コーディングではない」と、NVIDIAのエンタープライズプラットフォーム担当副社長Justin BoitanoはOpenAIの公式ブログ記事で述べている1。「人々が根本的に異なるスピードで作業できるよう助ける、新しい働き方だ。」
OpenAIは、リリース前に約200の早期アクセスパートナーがモデルをテストしたことを明らかにした。コーディング、研究、データ分析、文書作成、複数ツールを横断するワークフローなどのユースケースに焦点を当てていた。
長いコンテキストと価格動向
| モデル | コンテキスト | ライセンス | API入力価格(100万トークンあたり) |
|---|---|---|---|
| GPT-5.5 | 100万 | 独自 | ~$2.50(推定) |
| Kimi K2.6 | 26.2万 | オープン(改変MIT) | $0.60 |
| GLM-5.1 | 20.3万 | オープン | $1.40 |
| Qwen 3.6 Plus | 100万 | オープン | — |
コンテキストウィンドウも重要な戦場だ。GPT-5.5とQwen 3.6 Plusはともに100万トークンをサポートする一方、Kimi K2.6とGLM-5.1はそれぞれ26.2万トークン、20.3万トークンを提供する。
しかし価格面では、オープンソースモデルが圧倒的な優位性を見せる。Kimi K2.6のAPI入力価格は100万トークンあたりわずか$0.60、GLM-5.1は$1.40だ。GPT-5.5は正式な価格を発表していないが、市場の推定では約$2.50とされ、Kimiの4倍以上のコストとなる。
Pro版:推論時計算の可能性
GPT-5.5 Pro版は、推論時計算(test-time compute)の可能性を示している。並列推論スケーリングにより、Pro版はいくつかの超難問テストで改善を見せた。
- HLE(ツール使用):52.2%から57.2%へ改善
- FrontierMath Tier 1-3:51.7%から52.4%へ改善
- FrontierMath Tier 4:35.4%から39.6%へ改善
- GeneBench:25.0%から33.2%へ改善
GeneBenchは生物医学遺伝子解析ベンチマークで、非常に難易度が高い。強化されたPro版でさえ33.2%にとどまり、この分野の高い障壁を物語っている。
安全性とガードレール
OpenAIは、GPT-5.5に「これまで最も強力な安全策」を搭載したと強調している2。社内のExpert-SWEテストでは73.1%を達成し、機密性の高いエンジニアリングタスクを扱う際の信頼性を示した。
FrontierMathとARC-AGI結果 12
GPT-5.5はFrontierMath Tier 1-3問題で51.7%、Tier 4で35.4%を記録した。Pro版はそれぞれ52.4%と39.6%に押し上げた。
抽象推論ベンチマークARC-AGIでは、GPT-5.5はARC-AGI-1で95.0%、ARC-AGI-2で85.0%を達成した。これらの結果は、学習データを超えた一般化を要する新たな推論タスクでの強いパフォーマンスを示唆している。
その他のベンチマーク結果には、BixBenchで80.5%、ツールなしのHLEで41.4%、ツール使用可で52.2%への改善が含まれる。
参考文献
本記事で引用したデータと発言は、以下のソースで確認できる。
まとめ
GPT-5.5の登場は、エージェント型AIが概念から実用へ移行する転換点を示している。Terminal-Benchのような端末タスクでのOpenAIの明確なリードは、エンタープライズ市場での同社の地位を一時的に確保する。しかし、中国のオープンソースモデルが価格、特定の推論タスク、オープンなエコシステムで示す優位性は、競争のルールを変えつつある。
開発者にとって、選択はトレードオフの問題だ。OpenAIのエージェント能力に対価を支払うか、オープンソース替代モデルのコスト効率とカスタマイズ性を受け入れるか。答えはおそらく、具体的なユースケースと予算制約に依存する。
このモデルは現在、ChatGPT Plus加入者が利用可能で、APIアクセスは今後数週間かけて展開される予定だ。エンタープライズ顧客はOpenAIの営業チャネルを通じて早期アクセスをリクエストできる。
Footnotes
-
OpenAI Official Blog — GPT-5.5発表、Terminal-Bench 2.0・GPQA Diamondベンチマーク、Justin Boitanoの引用を含む https://openai.com/index/introducing-gpt-5-5/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
OpenAI GPT-5.5 System Card — 安全性評価、早期アクセスパートナーのフィードバック、安全措置の詳細 https://openai.com/index/gpt-5-5-system-card/ ↩ ↩2 ↩3 ↩4
-
BenchLM.ai Leaderboard — GPT-5.5(2位)、Kimi 2.6(12位)、GLM-5.1(13位)、Qwen 3.6 Plus(18位)を含む包括的ベンチマークプラットフォーム https://benchlm.ai/ ↩ ↩2 ↩3 ↩4