免責事項:本記事のベンチマークデータはすべて、各モデルの公式モデルカード、テクニカルレポート、公式価格ページ、およびサードパーティ評価プラットフォーム Artificial Analysis の公開結果に基づいています。弊社による独自テストではありません。評価環境が異なるスコアは直接比較できません。参考値としてご覧ください。
2026年4月30日、xAI は Grok 4.3 を API 全体に開放した1。その2週間前の4月17日、このモデルは SuperGrok Heavy(月額300ドル)のモデルセレクタに静かに登場していた2。Elon Musk は当時、稼働中のチェックポイントが約0.5兆パラメータであることを確認し、1兆パラメータ版の学習完了まであと5日程度と述べていた2。
同じタイミングで、中国発の低コストオープンソースモデル3種が相次いで登場している。DeepSeek V4 Flash(4月24日)3、MiniMax M2.7(3月18日)4、Xiaomi MiMo 2.5(4月22日)5である。3モデルに共通する設計思想は明確だ。「10~15Bのアクティブパラメータでフロンティア級の推論・Agent能力を狙い、API価格を競合の数十分の一に抑える」。Grok 4.3 は異なる道を選んだ。より大きなパラメータ規模、常時推論、そして法律・金融といった垂直領域での精度に賭けている。
基本スペック一覧
| 項目 | Grok 4.3 | DeepSeek V4 Flash | MiniMax M2.7 | MiMo 2.5 |
|---|---|---|---|---|
| 開発元 | xAI | DeepSeek | MiniMax | Xiaomi |
| リリース日 | 4/17 Beta / 4/30 GA12 | 2026/4/243 | 2026/3/184 | 2026/4/225 |
| 総パラメータ | ~0.5T(Musk確認)2 | 284B3 | 229B4 | 310B5 |
| アクティブパラメータ | 非公開 | 13B3 | 10B4 | 15B5 |
| アーキテクチャ | 非公開 | MoE + CSA/HCAハイブリッド注意3 | MoE4 | MoE + ハイブリッドスライディングウィンドウ5 |
| コンテキストウィンドウ | 1M(API)/ 2M(App)12 | 1M3 | 200K4 | 1M5 |
| 推論モード | 常時ON、無効化不可1 | 3段階:Non-Think / High / Max3 | 切替可能4 | 切替可能5 |
| 対応モダリティ | テキスト+画像+動画2 | テキストのみ3 | テキストのみ6 | テキスト+画像+音声+動画5 |
| オープンソース | クローズド2 | MITライセンス3 | オープン(ライセンス曖昧)7 | MITライセンス8 |
| ドキュメント生成 | PDF / PPTX / Excel2 | 非対応 | 非対応 | 非対応 |
Grok 4.3 は機能の充実度で明らかに半歩リードしている。ネイティブの動画理解と構造化ドキュメント出力は、オープンソース3モデルでは完全にはカバーできない領域だ。MiMo 2.5 はマルチモーダル対応で最も近いが、ドキュメント出力機能は持たない。
ベンチマーク:Grok優勢だが圧倒的ではない
以下はすべて公式発表および Artificial Analysis のサードパーティ評価からのデータである:
| ベンチマーク | Grok 4.3 | DeepSeek V4 Flash (Max) | MiniMax M2.7 | MiMo 2.5 |
|---|---|---|---|---|
| GPQA Diamond | 90.1%1 | 88.1%3 | 87.4%9 | 84.9%10 |
| HLE(人類最後の試験) | 35.0%1 | 34.8%3 | 28.1%9 | 25.2%10 |
| AA知能指数(総合) | 53.21 | 4711 | 49.69 | 49.010 |
| SciCode | 47.3%1 | — | 47.0%9 | — |
| τ²-Bench | 97.7%1 | 95.6%(High)3 | 84.8%9 | 90.6%11 |
| IFBench | 81.3%1 | 79.2%(Max)3 | 75.7%9 | 67.1%10 |
| GDPval-AA(ELO) | ~150012 | 13953 | 14954 | 1578–158113 |
| 出力速度(tok/s) | 225.41 | ~8011 | ~429 | 100–15014 |
| 初回トークン遅延 | 13.13秒1 | 1.03秒(Non-Think)11 | 1.75秒–2.31秒9 | 未開示 |
いくつかのポイント:
総合知能は Grok 4.3 だが差は小さい。 AA知能指数 53.2 に対し、オープンソース3モデルは 47~49.6。4~6ポイントのレンジだ。GPQA Diamond では Grok の 90.1% が DeepSeek V4 Flash の 88.1% をわずか2ポイント上回る程度。本当に差が開くのは HLE(人類最後の試験)で、Grok 4.3 が MiniMax M2.7 を6.9ポイントリードしている。
Agent・ツール使用ベンチマークでは評価が分かれる。 τ²-Bench では Grok 4.3 が 97.7% でトップだが、DeepSeek V4 Flash が 95.6% と2ポイント差に迫る。GDPval-AA に至っては様相が逆転する。MiMo 2.5 が 1578~1581 ELO で Grok 4.3 の約1500 を上回っているのだ1312。MiniMax M2.7 も 1495 でほぼ互角。VentureBeat は Grok 4.3 が Grok 4.20 から約300 ELO の大幅向上を遂げたことを報じたが、これは言い換えれば「オープンソース陣営に追いついた」というレベルの話だ12。
Grok 4.3 は出力最速だが起動最遅。 225.4 tok/s の出力速度は MiniMax M2.7 の5倍以上だが、初回トークンまでの13.13秒は全モデル中ワースト1。常時推論のコストだ。DeepSeek V4 Flash は Non-Think モードで約1秒だが、Max 推論では大幅に遅くなる11。
法律・金融——Grok 4.3 の独壇場。 CaseLaw v2(法律推論)で 79.3%、CorpFin(財務分析)でそれぞれ1位12。オープンソース3モデルには、これらの垂直ベンチマークでの公開スコアが存在しない。
価格:Grokは中位、オープンソースは二極化
| 項目 | Grok 4.3 | DeepSeek V4 Flash | MiniMax M2.7 | MiMo 2.5 |
|---|---|---|---|---|
| 入力($/1Mトークン) | $1.251 | $0.143 | $0.304 | 約$0.5013 |
| 出力($/1Mトークン) | $2.501 | $0.283 | $1.204 | 約$1.5013 |
| キャッシュ読取($/1M) | $0.201 | $0.00283 | $0.0615 | 未開示 |
| 段階料金 | 200K超で2倍1 | 一律3 | 一律4 | 一律 |
| 推論トークン課金 | 出力トークンと同額1 | 出力トークンと同額3 | 出力料金に含む4 | 含む |
| 一般向けプラン | $30/月 SuperGrok / $300/月 Heavy2 | 従量課金のみ3 | トークンプランあり4 | トークンプランあり13 |
Grok 4.3 の入力価格 $1.25/M は DeepSeek V4 Flash の約9倍、出力も同様に $2.50/M で約9倍だ。ただし MiniMax M2.7($1.20/M出力)や MiMo 2.5(約$1.50/M)との比較では、1.7~2倍の差に縮まる。
見落としがちなのが推論トークンのコストだ。Grok 4.3 は常に「考える」ため、内部推論ステップのたびに課金対象の出力トークンが発生する。DeepSeek V4 Flash も Max モードでは同様のオーバーヘッドがある。表面価格と実コストの差は、価格表の数字以上に大きい。
Grok 4.3 だけが持つ三つの武器
- 垂直領域での精度:CaseLaw v2 79.3%(法律)、CorpFin 1位(金融)12——コンプライアンスレビュー、契約分析、財務モデリングにおいて明確なエンジニアリング価値がある。
- ネイティブドキュメント生成:会話から直接、整形済みの PDF、PPTX、Excel ファイルを出力2。競合分析、デューデリジェンスレポートなど、従来は手作業のフォーマット調整が必要だった領域で意味を持つ。
- X プラットフォーム統合:X 上の投稿、ユーザープロファイル、スレッドをリアルタイム検索可能1。このデータチャネルは他モデルでは代替できない。
オープンソース陣営の反撃
- 価格の堀:DeepSeek V4 Flash の $0.28/M 出力は、チャット、分類、抽出といった高トラフィックのワークロードにおいて、性能がやや劣ってもトータルコストで数分の一になりうる。
- 自由な展開:MIT ライセンスのモデルはプライベートクラウドやオンプレミスで稼働し、データ流出のコンプライアンスリスクがない。Grok 4.3 は API 専用。
- Agent能力は劣っていない:GDPval-AA では MiMo 2.5 が Grok 4.3 を上回り、MiniMax M2.7 が並ぶ。オフィス自動化・Agentワークフローにおいて、これらは二軍ではない。
期待されること
Grok 4.3 の登場は二つのことを示している。
第一に、中規模モデルの能力上限はまだ伸びている。 約0.5兆パラメータで AA知能指数 53.2 というスコアは、十分な計算資源を持つチームにとって手の届かない数字ではない。Musk が言及した1兆パラメータ版2が予定通り出荷されれば、このクラスのベースラインがさらに引き上げられる。
第二に、推論×コスト×垂直精度のトライアングルが2026年の主戦場だ。 Grok 4.3 は「常時推論・中価格帯」、DeepSeek V4 Flash は「激安・推論は必要なときだけ」、MiniMax M2.7 は「Agent バランス型」、MiMo 2.5 は「マルチモーダル+オフィス Agent」。全方位をカバーするモデルは存在しない。
開発者にとって2026年半ばのモデル選定とは、もはや「一本に絞る」発想ではないだろう。法務・財務分析は Grok 4.3 へ、高トラフィックの低コストAPIは DeepSeek V4 Flash へ、マルチモーダルアプリは MiMo 2.5 へ、複雑な Agent ワークフローは MiniMax M2.7 と Grok 4.3 で比較テスト——そうしたルーティング設計が標準になるはずだ。
Grok 4.3 の1兆パラメータ版が第2四半期末に同等価格で登場すれば、「中規模」モデルの能力水準はもう一段上がる。10~20B のアクティブパラメータでそれに追いつけるかどうか——この問いが、2026年後半のもっとも注目すべき技術物語になる。
参考文献
Footnotes
-
Artificial Analysis / Easy Benchmarks / xAI Docs — Grok 4.3 サードパーティベンチマーク:AA知能指数 53.2、GPQA Diamond 90.1%、HLE 35.0%、速度 225.4 tok/s、価格 $1.25/$2.50 https://easy-benchmarks.com/models/grok-4-3 および https://docs.x.ai/docs/models ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19
-
Awesome Agents — Grok 4.3 パラメータ確認(~0.5T)、動画入力、ドキュメント生成、Muskによる1T版の学習進捗確認 https://awesomeagents.ai/models/grok-4-3/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11
-
DeepSeek Hugging Face — DeepSeek-V4-Flash 公式モデルカード:284B/13B、ベンチマーク、MITライセンス https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20
-
DataLearnerAI — MiniMax M2.7 公式スペック(229B/10B)、ベンチマーク、価格 https://www.datalearner.com/en/ai-models/pretrained-models/minimax-m2-7 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13
-
Xiaomi MiMo 公式 — MiMo-V2.5 リリースページ:310B/15B、1Mコンテキスト、ClawEval https://mimo.xiaomi.com/mimo-v2-5/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
DocsBot — MiniMax M2.7 スペック(テキストモダリティのみ確認) https://docsbot.ai/models/minimax-m2-7 ↩
-
RemoteOpenClaw Blog — MiniMax M2.7 モデル比較、オープンソース状況 https://www.remoteopenclaw.com/blog/best-minimax-models-for-openclaw ↩
-
VentureBeat — Xiaomi MiMo-V2.5 シリーズ MITライセンスでオープンソース化 https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks ↩
-
Ufuk Ozen(Artificial Analysisデータ) — MiniMax M2.7:知能指数 49.6、コーディング指数 41.9、速度 42 tok/s https://ufukozen.com/model/minimax-minimax-m2.7 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
LLMBase.ai — MiMo-V2.5 vs Gemini 2.5 Flash 比較:GPQA 84.9%、HLE 25.2%、τ²-Bench 90.6% https://llmbase.ai/compare/gemini-2-5-flash-preview-09-2025-reasoning,mimo-v2-5-0424/ ↩ ↩2 ↩3 ↩4
-
Codersera — DeepSeek V4 Flash 詳細分析:AA知能指数 47、速度 ~80 tok/s、TTFT 1.03秒(Non-Think) https://codersera.com/blog/deepseek-v4-flash-deep-dive/ ↩ ↩2 ↩3 ↩4 ↩5
-
VentureBeat — Grok 4.3 発表記事:GDPval-AA ~300 ELO向上、CaseLaw v2 79.3%、CorpFin 1位 https://venturebeat.com/technology/xai-launches-grok-4-3-at-an-aggressively-low-price-and-a-new-fast-powerful-voice-cloning-suite ↩ ↩2 ↩3 ↩4 ↩5
-
Agmazon — MiMo-V2.5 完全ガイド:Terminal-Bench 56.1%、GDPval-AA 1578–1581、価格 ~$0.50/$1.50 https://agmazon.com/blog/articles/technology/202604/mimo-v2-5-complete-guide-en.html ↩ ↩2 ↩3 ↩4 ↩5
-
Yahoo Tech — MiMo 2.5 速度 100–150 tok/s 報道 https://tech.yahoo.com/ai/articles/xiaomis-mimo-2-5-pro-204235330.html ↩
-
Price Per Token — MiniMax M2.7 キャッシュ読取価格 $0.06/M https://pricepertoken.com/pricing-page/model/minimax-minimax-m2.7 ↩