Apr 23, 2026

GPT-5.5登場：OpenAIの新世代エージェントモデル、Terminal-Bench 2.0で82.7%を達成

OpenAIがGPT-5.5を発表。Terminal-Bench 2.0で82.7%、GPQA Diamondで93.6%を記録。Kimi K2.6、GLM-5.1、Qwen 3.6 Plusとのベンチマーク比較で、新たなフロンティアを評価する。

OpenAIは公式にGPT-5.5を発表した。同社のエージェント型AI分野への最新の取り組みだ。このモデルはTerminal-Bench 2.0ベンチマークで82.7%、GPQA Diamond科学推論テストで93.6%を達成した¹。この発表は、大規模言語モデル市場での競争が激化する中で行われた。中国のオープンソース替代モデルであるKimi K2.6、GLM-5.1、Qwen 3.6 Plusが急速に差を詰めている。

GPT-5.5は単なる対話型アシスタントではなく、プロのワークフロー向けに設計されたエージェント型モデルとして位置づけられている。OpenAIはシステムカードで、このモデルの核心となる優位性を一言でこうまとめている。「タスクをより早く理解し、より少ない指示で、ツールをより効果的に使い、自分の仕事を確認し、完了するまで続ける」²

主要指標：コーディング能力が群を抜く

ソフトウェアエンジニアリングのベンチマークでは、GPT-5.5が印象的なパフォーマンスを見せた。BenchLM.aiの包括的評価によると³、GPT-5.5は総合で89/100点を獲得し、テスト対象の全モデル中5位、ベンダー検証済みの16モデル中2位にランクインした。

特筆すべきはTerminal-Bench 2.0のスコアだ。82.7%という数字は、同等モデルの中で最も高いだけでなく、中国のオープンソース競合モデルであるKimi K2.6（66.7%）、GLM-5.1（63.5%）、Qwen 3.6 Plus（61.6%）と比較して、15ポイント以上の差をつけている。

表1：コーディング・ソフトウェアエンジニアリング比較 ¹³

ベンチマーク	GPT-5.5	Kimi K2.6	GLM-5.1	Qwen 3.6 Plus
SWE-Bench Pro	58.6%	58.6%	58.4%	56.6%
Terminal-Bench 2.0	82.7%	66.7%	63.5%	61.6%
LiveCodeBench	—	89.6%	—	87.1%
SWE-Bench Verified	—	80.2%	—	78.8%

注目すべきは、広く引用されているソフトウェアエンジニアリングベンチマークであるSWE-Bench Proでは、GPT-5.5がKimi K2.6と58.6%で並んだことだ。GLM-5.1（58.4%）とQwen 3.6 Plus（56.6%）も僅差で追い、トップモデル間の差はわずか2ポイントにとどまっている。これは実用的なコーディングタスクでは、トップモデル間の差が縮まりつつあることを示唆している。

OpenAIは特に、Claude Opus 4.7のSWE-Bench Proスコアに「暗記の疑い」という注釈が付いていることを指摘し、一部の高スコアの信頼性に疑問を投げかけた。

推論と知識：中国モデルの反撃

GPT-5.5は端末タスクで圧倒的だが、純粋な推論・知識テストでは中国モデルも強い競争力を見せた。

GPQA Diamondは大学院レベルの科学問題回答能力を評価する。GPT-5.5は93.6%で首位だが、Kimi K2.6（90.5%）とQwen 3.6 Plus（90.4%）は差を3ポイント以内に詰めている。GLM-5.1の86.2%は低いが、4月7日のリリース日（GPT-5.5より2週間早い）を考慮すれば健闘したと言える。

表2：推論・知識比較 ¹³

ベンチマーク	GPT-5.5	Kimi K2.6	GLM-5.1	Qwen 3.6 Plus
GPQA Diamond	93.6%	90.5%	86.2%	90.4%
HLE（ツール使用）	52.2%	54.0%	—	—
AIME 2026	—	96.4%	95.3%	—
MMLU-Pro	—	—	—	88.5%

超難問テストであるHLE（Humanity’s Last Exam）では、ツール使用可の状態でKimi K2.6が54.0%を達成し、GPT-5.5の52.2%を上回った。数学競技AIME 2026では、Kimi K2.6（96.4%）とGLM-5.1（95.3%）がほぼ満点に近いスコアを記録した。

Qwen 3.6 Plusは知識テストMMLU-Proで88.5%を報告し、そのリーダーボードで4位につけている。

エージェント能力：ツール使用の差

GPT-5.5の核心となる売りは、自律的に計画し、ツールを呼び出し、タスク完了まで反復するエージェント能力だ。BenchLM.aiの評価では、GPT-5.5はエージェント型ツール使用カテゴリで99.2点を獲得し2位にランクインした。

OpenAIのシステムカードはこの能力を詳しく説明している。GPT-5.5は「タスクをより早く理解し、より少ない指示で、ツールをより効果的に使い、自分の仕事を確認し、完了するまで続ける」²

「単なる高速コーディングではない」と、NVIDIAのエンタープライズプラットフォーム担当副社長Justin BoitanoはOpenAIの公式ブログ記事で述べている¹。「人々が根本的に異なるスピードで作業できるよう助ける、新しい働き方だ。」

OpenAIは、リリース前に約200の早期アクセスパートナーがモデルをテストしたことを明らかにした。コーディング、研究、データ分析、文書作成、複数ツールを横断するワークフローなどのユースケースに焦点を当てていた。

長いコンテキストと価格動向

表3：コンテキストウィンドウと価格比較 ¹³

モデル	コンテキスト	ライセンス	API入力価格（100万トークンあたり）
GPT-5.5	100万	独自	~$2.50（推定）
Kimi K2.6	26.2万	オープン（改変MIT）	$0.60
GLM-5.1	20.3万	オープン	$1.40
Qwen 3.6 Plus	100万	オープン	—

コンテキストウィンドウも重要な戦場だ。GPT-5.5とQwen 3.6 Plusはともに100万トークンをサポートする一方、Kimi K2.6とGLM-5.1はそれぞれ26.2万トークン、20.3万トークンを提供する。

しかし価格面では、オープンソースモデルが圧倒的な優位性を見せる。Kimi K2.6のAPI入力価格は100万トークンあたりわずか$0.60、GLM-5.1は$1.40だ。GPT-5.5は正式な価格を発表していないが、市場の推定では約$2.50とされ、Kimiの4倍以上のコストとなる。

Pro版：推論時計算の可能性

GPT-5.5 Pro版は、推論時計算（test-time compute）の可能性を示している。並列推論スケーリングにより、Pro版はいくつかの超難問テストで改善を見せた。

HLE（ツール使用）：52.2%から57.2%へ改善
FrontierMath Tier 1-3：51.7%から52.4%へ改善
FrontierMath Tier 4：35.4%から39.6%へ改善
GeneBench：25.0%から33.2%へ改善

GeneBenchは生物医学遺伝子解析ベンチマークで、非常に難易度が高い。強化されたPro版でさえ33.2%にとどまり、この分野の高い障壁を物語っている。

安全性とガードレール

OpenAIは、GPT-5.5に「これまで最も強力な安全策」を搭載したと強調している²。社内のExpert-SWEテストでは73.1%を達成し、機密性の高いエンジニアリングタスクを扱う際の信頼性を示した。

FrontierMathとARC-AGI結果 ¹²

GPT-5.5はFrontierMath Tier 1-3問題で51.7%、Tier 4で35.4%を記録した。Pro版はそれぞれ52.4%と39.6%に押し上げた。

抽象推論ベンチマークARC-AGIでは、GPT-5.5はARC-AGI-1で95.0%、ARC-AGI-2で85.0%を達成した。これらの結果は、学習データを超えた一般化を要する新たな推論タスクでの強いパフォーマンスを示唆している。

その他のベンチマーク結果には、BixBenchで80.5%、ツールなしのHLEで41.4%、ツール使用可で52.2%への改善が含まれる。

参考文献

本記事で引用したデータと発言は、以下のソースで確認できる。

まとめ

GPT-5.5の登場は、エージェント型AIが概念から実用へ移行する転換点を示している。Terminal-Benchのような端末タスクでのOpenAIの明確なリードは、エンタープライズ市場での同社の地位を一時的に確保する。しかし、中国のオープンソースモデルが価格、特定の推論タスク、オープンなエコシステムで示す優位性は、競争のルールを変えつつある。

開発者にとって、選択はトレードオフの問題だ。OpenAIのエージェント能力に対価を支払うか、オープンソース替代モデルのコスト効率とカスタマイズ性を受け入れるか。答えはおそらく、具体的なユースケースと予算制約に依存する。

このモデルは現在、ChatGPT Plus加入者が利用可能で、APIアクセスは今後数週間かけて展開される予定だ。エンタープライズ顧客はOpenAIの営業チャネルを通じて早期アクセスをリクエストできる。

OpenAI Official Blog — GPT-5.5発表、Terminal-Bench 2.0・GPQA Diamondベンチマーク、Justin Boitanoの引用を含む https://openai.com/index/introducing-gpt-5-5/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
OpenAI GPT-5.5 System Card — 安全性評価、早期アクセスパートナーのフィードバック、安全措置の詳細 https://openai.com/index/gpt-5-5-system-card/ ↩ ↩² ↩³ ↩⁴
BenchLM.ai Leaderboard — GPT-5.5（2位）、Kimi 2.6（12位）、GLM-5.1（13位）、Qwen 3.6 Plus（18位）を含む包括的ベンチマークプラットフォーム https://benchlm.ai/ ↩ ↩² ↩³ ↩⁴