ニュース 深掘り Opinion 研究 データ リソース イベント 概要

Grok 4.3登場|中国産オープンソース3モデルと実力比較、2026年モデル選定の分岐点

xAIのGrok 4.3(約0.5兆パラメータ、$1.25/$2.50)がDeepSeek V4 Flash、MiniMax M2.7、MiMo 2.5と激突。ベンチマーク、価格、勝ち筋を読み解く。

免責事項:本記事のベンチマークデータはすべて、各モデルの公式モデルカード、テクニカルレポート、公式価格ページ、およびサードパーティ評価プラットフォーム Artificial Analysis の公開結果に基づいています。弊社による独自テストではありません。評価環境が異なるスコアは直接比較できません。参考値としてご覧ください。

2026年4月30日、xAI は Grok 4.3 を API 全体に開放した1。その2週間前の4月17日、このモデルは SuperGrok Heavy(月額300ドル)のモデルセレクタに静かに登場していた2。Elon Musk は当時、稼働中のチェックポイントが約0.5兆パラメータであることを確認し、1兆パラメータ版の学習完了まであと5日程度と述べていた2

同じタイミングで、中国発の低コストオープンソースモデル3種が相次いで登場している。DeepSeek V4 Flash(4月24日)3、MiniMax M2.7(3月18日)4、Xiaomi MiMo 2.5(4月22日)5である。3モデルに共通する設計思想は明確だ。「10~15Bのアクティブパラメータでフロンティア級の推論・Agent能力を狙い、API価格を競合の数十分の一に抑える」。Grok 4.3 は異なる道を選んだ。より大きなパラメータ規模、常時推論、そして法律・金融といった垂直領域での精度に賭けている。

基本スペック一覧

項目Grok 4.3DeepSeek V4 FlashMiniMax M2.7MiMo 2.5
開発元xAIDeepSeekMiniMaxXiaomi
リリース日4/17 Beta / 4/30 GA122026/4/2432026/3/1842026/4/225
総パラメータ~0.5T(Musk確認)2284B3229B4310B5
アクティブパラメータ非公開13B310B415B5
アーキテクチャ非公開MoE + CSA/HCAハイブリッド注意3MoE4MoE + ハイブリッドスライディングウィンドウ5
コンテキストウィンドウ1M(API)/ 2M(App)121M3200K41M5
推論モード常時ON、無効化不可13段階:Non-Think / High / Max3切替可能4切替可能5
対応モダリティテキスト+画像+動画2テキストのみ3テキストのみ6テキスト+画像+音声+動画5
オープンソースクローズド2MITライセンス3オープン(ライセンス曖昧)7MITライセンス8
ドキュメント生成PDF / PPTX / Excel2非対応非対応非対応

Grok 4.3 は機能の充実度で明らかに半歩リードしている。ネイティブの動画理解と構造化ドキュメント出力は、オープンソース3モデルでは完全にはカバーできない領域だ。MiMo 2.5 はマルチモーダル対応で最も近いが、ドキュメント出力機能は持たない。

ベンチマーク:Grok優勢だが圧倒的ではない

以下はすべて公式発表および Artificial Analysis のサードパーティ評価からのデータである:

ベンチマークGrok 4.3DeepSeek V4 Flash (Max)MiniMax M2.7MiMo 2.5
GPQA Diamond90.1%188.1%387.4%984.9%10
HLE(人類最後の試験)35.0%134.8%328.1%925.2%10
AA知能指数(総合)53.21471149.6949.010
SciCode47.3%147.0%9
τ²-Bench97.7%195.6%(High)384.8%990.6%11
IFBench81.3%179.2%(Max)375.7%967.1%10
GDPval-AA(ELO)~15001213953149541578–158113
出力速度(tok/s)225.41~8011~429100–15014
初回トークン遅延13.13秒11.03秒(Non-Think)111.75秒–2.31秒9未開示

いくつかのポイント:

総合知能は Grok 4.3 だが差は小さい。 AA知能指数 53.2 に対し、オープンソース3モデルは 47~49.6。4~6ポイントのレンジだ。GPQA Diamond では Grok の 90.1% が DeepSeek V4 Flash の 88.1% をわずか2ポイント上回る程度。本当に差が開くのは HLE(人類最後の試験)で、Grok 4.3 が MiniMax M2.7 を6.9ポイントリードしている。

Agent・ツール使用ベンチマークでは評価が分かれる。 τ²-Bench では Grok 4.3 が 97.7% でトップだが、DeepSeek V4 Flash が 95.6% と2ポイント差に迫る。GDPval-AA に至っては様相が逆転する。MiMo 2.5 が 1578~1581 ELO で Grok 4.3 の約1500 を上回っているのだ1312。MiniMax M2.7 も 1495 でほぼ互角。VentureBeat は Grok 4.3 が Grok 4.20 から約300 ELO の大幅向上を遂げたことを報じたが、これは言い換えれば「オープンソース陣営に追いついた」というレベルの話だ12

Grok 4.3 は出力最速だが起動最遅。 225.4 tok/s の出力速度は MiniMax M2.7 の5倍以上だが、初回トークンまでの13.13秒は全モデル中ワースト1。常時推論のコストだ。DeepSeek V4 Flash は Non-Think モードで約1秒だが、Max 推論では大幅に遅くなる11

法律・金融——Grok 4.3 の独壇場。 CaseLaw v2(法律推論)で 79.3%、CorpFin(財務分析)でそれぞれ1位12。オープンソース3モデルには、これらの垂直ベンチマークでの公開スコアが存在しない。

価格:Grokは中位、オープンソースは二極化

項目Grok 4.3DeepSeek V4 FlashMiniMax M2.7MiMo 2.5
入力($/1Mトークン)$1.251$0.143$0.304約$0.5013
出力($/1Mトークン)$2.501$0.283$1.204約$1.5013
キャッシュ読取($/1M)$0.201$0.00283$0.0615未開示
段階料金200K超で2倍1一律3一律4一律
推論トークン課金出力トークンと同額1出力トークンと同額3出力料金に含む4含む
一般向けプラン$30/月 SuperGrok / $300/月 Heavy2従量課金のみ3トークンプランあり4トークンプランあり13

Grok 4.3 の入力価格 $1.25/M は DeepSeek V4 Flash の約9倍、出力も同様に $2.50/M で約9倍だ。ただし MiniMax M2.7($1.20/M出力)や MiMo 2.5(約$1.50/M)との比較では、1.7~2倍の差に縮まる。

見落としがちなのが推論トークンのコストだ。Grok 4.3 は常に「考える」ため、内部推論ステップのたびに課金対象の出力トークンが発生する。DeepSeek V4 Flash も Max モードでは同様のオーバーヘッドがある。表面価格と実コストの差は、価格表の数字以上に大きい。

Grok 4.3 だけが持つ三つの武器

  • 垂直領域での精度:CaseLaw v2 79.3%(法律)、CorpFin 1位(金融)12——コンプライアンスレビュー、契約分析、財務モデリングにおいて明確なエンジニアリング価値がある。
  • ネイティブドキュメント生成:会話から直接、整形済みの PDF、PPTX、Excel ファイルを出力2。競合分析、デューデリジェンスレポートなど、従来は手作業のフォーマット調整が必要だった領域で意味を持つ。
  • X プラットフォーム統合:X 上の投稿、ユーザープロファイル、スレッドをリアルタイム検索可能1。このデータチャネルは他モデルでは代替できない。

オープンソース陣営の反撃

  • 価格の堀:DeepSeek V4 Flash の $0.28/M 出力は、チャット、分類、抽出といった高トラフィックのワークロードにおいて、性能がやや劣ってもトータルコストで数分の一になりうる。
  • 自由な展開:MIT ライセンスのモデルはプライベートクラウドやオンプレミスで稼働し、データ流出のコンプライアンスリスクがない。Grok 4.3 は API 専用。
  • Agent能力は劣っていない:GDPval-AA では MiMo 2.5 が Grok 4.3 を上回り、MiniMax M2.7 が並ぶ。オフィス自動化・Agentワークフローにおいて、これらは二軍ではない。

期待されること

Grok 4.3 の登場は二つのことを示している。

第一に、中規模モデルの能力上限はまだ伸びている。 約0.5兆パラメータで AA知能指数 53.2 というスコアは、十分な計算資源を持つチームにとって手の届かない数字ではない。Musk が言及した1兆パラメータ版2が予定通り出荷されれば、このクラスのベースラインがさらに引き上げられる。

第二に、推論×コスト×垂直精度のトライアングルが2026年の主戦場だ。 Grok 4.3 は「常時推論・中価格帯」、DeepSeek V4 Flash は「激安・推論は必要なときだけ」、MiniMax M2.7 は「Agent バランス型」、MiMo 2.5 は「マルチモーダル+オフィス Agent」。全方位をカバーするモデルは存在しない。

開発者にとって2026年半ばのモデル選定とは、もはや「一本に絞る」発想ではないだろう。法務・財務分析は Grok 4.3 へ、高トラフィックの低コストAPIは DeepSeek V4 Flash へ、マルチモーダルアプリは MiMo 2.5 へ、複雑な Agent ワークフローは MiniMax M2.7 と Grok 4.3 で比較テスト——そうしたルーティング設計が標準になるはずだ。

Grok 4.3 の1兆パラメータ版が第2四半期末に同等価格で登場すれば、「中規模」モデルの能力水準はもう一段上がる。10~20B のアクティブパラメータでそれに追いつけるかどうか——この問いが、2026年後半のもっとも注目すべき技術物語になる。

参考文献

Footnotes

  1. Artificial Analysis / Easy Benchmarks / xAI Docs — Grok 4.3 サードパーティベンチマーク:AA知能指数 53.2、GPQA Diamond 90.1%、HLE 35.0%、速度 225.4 tok/s、価格 $1.25/$2.50 https://easy-benchmarks.com/models/grok-4-3 および https://docs.x.ai/docs/models 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

  2. Awesome Agents — Grok 4.3 パラメータ確認(~0.5T)、動画入力、ドキュメント生成、Muskによる1T版の学習進捗確認 https://awesomeagents.ai/models/grok-4-3/ 2 3 4 5 6 7 8 9 10 11

  3. DeepSeek Hugging Face — DeepSeek-V4-Flash 公式モデルカード:284B/13B、ベンチマーク、MITライセンス https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

  4. DataLearnerAI — MiniMax M2.7 公式スペック(229B/10B)、ベンチマーク、価格 https://www.datalearner.com/en/ai-models/pretrained-models/minimax-m2-7 2 3 4 5 6 7 8 9 10 11 12 13

  5. Xiaomi MiMo 公式 — MiMo-V2.5 リリースページ:310B/15B、1Mコンテキスト、ClawEval https://mimo.xiaomi.com/mimo-v2-5/ 2 3 4 5 6 7 8

  6. DocsBot — MiniMax M2.7 スペック(テキストモダリティのみ確認) https://docsbot.ai/models/minimax-m2-7

  7. RemoteOpenClaw Blog — MiniMax M2.7 モデル比較、オープンソース状況 https://www.remoteopenclaw.com/blog/best-minimax-models-for-openclaw

  8. VentureBeat — Xiaomi MiMo-V2.5 シリーズ MITライセンスでオープンソース化 https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks

  9. Ufuk Ozen(Artificial Analysisデータ) — MiniMax M2.7:知能指数 49.6、コーディング指数 41.9、速度 42 tok/s https://ufukozen.com/model/minimax-minimax-m2.7 2 3 4 5 6 7 8

  10. LLMBase.ai — MiMo-V2.5 vs Gemini 2.5 Flash 比較:GPQA 84.9%、HLE 25.2%、τ²-Bench 90.6% https://llmbase.ai/compare/gemini-2-5-flash-preview-09-2025-reasoning,mimo-v2-5-0424/ 2 3 4

  11. Codersera — DeepSeek V4 Flash 詳細分析:AA知能指数 47、速度 ~80 tok/s、TTFT 1.03秒(Non-Think) https://codersera.com/blog/deepseek-v4-flash-deep-dive/ 2 3 4 5

  12. VentureBeat — Grok 4.3 発表記事:GDPval-AA ~300 ELO向上、CaseLaw v2 79.3%、CorpFin 1位 https://venturebeat.com/technology/xai-launches-grok-4-3-at-an-aggressively-low-price-and-a-new-fast-powerful-voice-cloning-suite 2 3 4 5

  13. Agmazon — MiMo-V2.5 完全ガイド:Terminal-Bench 56.1%、GDPval-AA 1578–1581、価格 ~$0.50/$1.50 https://agmazon.com/blog/articles/technology/202604/mimo-v2-5-complete-guide-en.html 2 3 4 5

  14. Yahoo Tech — MiMo 2.5 速度 100–150 tok/s 報道 https://tech.yahoo.com/ai/articles/xiaomis-mimo-2-5-pro-204235330.html

  15. Price Per Token — MiniMax M2.7 キャッシュ読取価格 $0.06/M https://pricepertoken.com/pricing-page/model/minimax-minimax-m2.7