May 3, 2026

Grok 4.3登場｜中国産オープンソース3モデルと実力比較、2026年モデル選定の分岐点

xAIのGrok 4.3（約0.5兆パラメータ、$1.25/$2.50）がDeepSeek V4 Flash、MiniMax M2.7、MiMo 2.5と激突。ベンチマーク、価格、勝ち筋を読み解く。

免責事項：本記事のベンチマークデータはすべて、各モデルの公式モデルカード、テクニカルレポート、公式価格ページ、およびサードパーティ評価プラットフォーム Artificial Analysis の公開結果に基づいています。弊社による独自テストではありません。評価環境が異なるスコアは直接比較できません。参考値としてご覧ください。

2026年4月30日、xAI は Grok 4.3 を API 全体に開放した¹。その2週間前の4月17日、このモデルは SuperGrok Heavy（月額300ドル）のモデルセレクタに静かに登場していた²。Elon Musk は当時、稼働中のチェックポイントが約0.5兆パラメータであることを確認し、1兆パラメータ版の学習完了まであと5日程度と述べていた²。

同じタイミングで、中国発の低コストオープンソースモデル3種が相次いで登場している。DeepSeek V4 Flash（4月24日）³、MiniMax M2.7（3月18日）⁴、Xiaomi MiMo 2.5（4月22日）⁵である。3モデルに共通する設計思想は明確だ。「10～15Bのアクティブパラメータでフロンティア級の推論・Agent能力を狙い、API価格を競合の数十分の一に抑える」。Grok 4.3 は異なる道を選んだ。より大きなパラメータ規模、常時推論、そして法律・金融といった垂直領域での精度に賭けている。

基本スペック一覧

項目	Grok 4.3	DeepSeek V4 Flash	MiniMax M2.7	MiMo 2.5
開発元	xAI	DeepSeek	MiniMax	Xiaomi
リリース日	4/17 Beta / 4/30 GA¹²	2026/4/24³	2026/3/18⁴	2026/4/22⁵
総パラメータ	~0.5T（Musk確認）²	284B³	229B⁴	310B⁵
アクティブパラメータ	非公開	13B³	10B⁴	15B⁵
アーキテクチャ	非公開	MoE + CSA/HCAハイブリッド注意³	MoE⁴	MoE + ハイブリッドスライディングウィンドウ⁵
コンテキストウィンドウ	1M（API）/ 2M（App）¹²	1M³	200K⁴	1M⁵
推論モード	常時ON、無効化不可¹	3段階：Non-Think / High / Max³	切替可能⁴	切替可能⁵
対応モダリティ	テキスト+画像+動画²	テキストのみ³	テキストのみ⁶	テキスト+画像+音声+動画⁵
オープンソース	クローズド²	MITライセンス³	オープン（ライセンス曖昧）⁷	MITライセンス⁸
ドキュメント生成	PDF / PPTX / Excel²	非対応	非対応	非対応

Grok 4.3 は機能の充実度で明らかに半歩リードしている。ネイティブの動画理解と構造化ドキュメント出力は、オープンソース3モデルでは完全にはカバーできない領域だ。MiMo 2.5 はマルチモーダル対応で最も近いが、ドキュメント出力機能は持たない。

ベンチマーク：Grok優勢だが圧倒的ではない

以下はすべて公式発表および Artificial Analysis のサードパーティ評価からのデータである：

ベンチマーク	Grok 4.3	DeepSeek V4 Flash (Max)	MiniMax M2.7	MiMo 2.5
GPQA Diamond	90.1%¹	88.1%³	87.4%⁹	84.9%¹⁰
HLE（人類最後の試験）	35.0%¹	34.8%³	28.1%⁹	25.2%¹⁰
AA知能指数（総合）	53.2¹	47¹¹	49.6⁹	49.0¹⁰
SciCode	47.3%¹	—	47.0%⁹	—
τ²-Bench	97.7%¹	95.6%（High）³	84.8%⁹	90.6%¹¹
IFBench	81.3%¹	79.2%（Max）³	75.7%⁹	67.1%¹⁰
GDPval-AA（ELO）	~1500¹²	1395³	1495⁴	1578–1581¹³
出力速度（tok/s）	225.4¹	~80¹¹	~42⁹	100–150¹⁴
初回トークン遅延	13.13秒¹	1.03秒（Non-Think）¹¹	1.75秒–2.31秒⁹	未開示

いくつかのポイント：

総合知能は Grok 4.3 だが差は小さい。 AA知能指数 53.2 に対し、オープンソース3モデルは 47～49.6。4～6ポイントのレンジだ。GPQA Diamond では Grok の 90.1% が DeepSeek V4 Flash の 88.1% をわずか2ポイント上回る程度。本当に差が開くのは HLE（人類最後の試験）で、Grok 4.3 が MiniMax M2.7 を6.9ポイントリードしている。

Agent・ツール使用ベンチマークでは評価が分かれる。 τ²-Bench では Grok 4.3 が 97.7% でトップだが、DeepSeek V4 Flash が 95.6% と2ポイント差に迫る。GDPval-AA に至っては様相が逆転する。MiMo 2.5 が 1578～1581 ELO で Grok 4.3 の約1500 を上回っているのだ¹³¹²。MiniMax M2.7 も 1495 でほぼ互角。VentureBeat は Grok 4.3 が Grok 4.20 から約300 ELO の大幅向上を遂げたことを報じたが、これは言い換えれば「オープンソース陣営に追いついた」というレベルの話だ¹²。

Grok 4.3 は出力最速だが起動最遅。 225.4 tok/s の出力速度は MiniMax M2.7 の5倍以上だが、初回トークンまでの13.13秒は全モデル中ワースト¹。常時推論のコストだ。DeepSeek V4 Flash は Non-Think モードで約1秒だが、Max 推論では大幅に遅くなる¹¹。

法律・金融——Grok 4.3 の独壇場。 CaseLaw v2（法律推論）で 79.3%、CorpFin（財務分析）でそれぞれ1位¹²。オープンソース3モデルには、これらの垂直ベンチマークでの公開スコアが存在しない。

価格：Grokは中位、オープンソースは二極化

項目	Grok 4.3	DeepSeek V4 Flash	MiniMax M2.7	MiMo 2.5
入力（$/1Mトークン）	$1.25¹	$0.14³	$0.30⁴	約$0.50¹³
出力（$/1Mトークン）	$2.50¹	$0.28³	$1.20⁴	約$1.50¹³
キャッシュ読取（$/1M）	$0.20¹	$0.0028³	$0.06¹⁵	未開示
段階料金	200K超で2倍¹	一律³	一律⁴	一律
推論トークン課金	出力トークンと同額¹	出力トークンと同額³	出力料金に含む⁴	含む
一般向けプラン	$30/月 SuperGrok / $300/月 Heavy²	従量課金のみ³	トークンプランあり⁴	トークンプランあり¹³

Grok 4.3 の入力価格 $1.25/M は DeepSeek V4 Flash の約9倍、出力も同様に $2.50/M で約9倍だ。ただし MiniMax M2.7（$1.20/M出力）や MiMo 2.5（約$1.50/M）との比較では、1.7～2倍の差に縮まる。

見落としがちなのが推論トークンのコストだ。Grok 4.3 は常に「考える」ため、内部推論ステップのたびに課金対象の出力トークンが発生する。DeepSeek V4 Flash も Max モードでは同様のオーバーヘッドがある。表面価格と実コストの差は、価格表の数字以上に大きい。

Grok 4.3 だけが持つ三つの武器

垂直領域での精度：CaseLaw v2 79.3%（法律）、CorpFin 1位（金融）¹²——コンプライアンスレビュー、契約分析、財務モデリングにおいて明確なエンジニアリング価値がある。
ネイティブドキュメント生成：会話から直接、整形済みの PDF、PPTX、Excel ファイルを出力²。競合分析、デューデリジェンスレポートなど、従来は手作業のフォーマット調整が必要だった領域で意味を持つ。
X プラットフォーム統合：X 上の投稿、ユーザープロファイル、スレッドをリアルタイム検索可能¹。このデータチャネルは他モデルでは代替できない。

オープンソース陣営の反撃

価格の堀：DeepSeek V4 Flash の $0.28/M 出力は、チャット、分類、抽出といった高トラフィックのワークロードにおいて、性能がやや劣ってもトータルコストで数分の一になりうる。
自由な展開：MIT ライセンスのモデルはプライベートクラウドやオンプレミスで稼働し、データ流出のコンプライアンスリスクがない。Grok 4.3 は API 専用。
Agent能力は劣っていない：GDPval-AA では MiMo 2.5 が Grok 4.3 を上回り、MiniMax M2.7 が並ぶ。オフィス自動化・Agentワークフローにおいて、これらは二軍ではない。

期待されること

Grok 4.3 の登場は二つのことを示している。

第一に、中規模モデルの能力上限はまだ伸びている。 約0.5兆パラメータで AA知能指数 53.2 というスコアは、十分な計算資源を持つチームにとって手の届かない数字ではない。Musk が言及した1兆パラメータ版²が予定通り出荷されれば、このクラスのベースラインがさらに引き上げられる。

第二に、推論×コスト×垂直精度のトライアングルが2026年の主戦場だ。 Grok 4.3 は「常時推論・中価格帯」、DeepSeek V4 Flash は「激安・推論は必要なときだけ」、MiniMax M2.7 は「Agent バランス型」、MiMo 2.5 は「マルチモーダル＋オフィス Agent」。全方位をカバーするモデルは存在しない。

開発者にとって2026年半ばのモデル選定とは、もはや「一本に絞る」発想ではないだろう。法務・財務分析は Grok 4.3 へ、高トラフィックの低コストAPIは DeepSeek V4 Flash へ、マルチモーダルアプリは MiMo 2.5 へ、複雑な Agent ワークフローは MiniMax M2.7 と Grok 4.3 で比較テスト——そうしたルーティング設計が標準になるはずだ。

Grok 4.3 の1兆パラメータ版が第2四半期末に同等価格で登場すれば、「中規模」モデルの能力水準はもう一段上がる。10～20B のアクティブパラメータでそれに追いつけるかどうか——この問いが、2026年後半のもっとも注目すべき技術物語になる。

参考文献

Artificial Analysis / Easy Benchmarks / xAI Docs — Grok 4.3 サードパーティベンチマーク：AA知能指数 53.2、GPQA Diamond 90.1%、HLE 35.0%、速度 225.4 tok/s、価格 $1.25/$2.50 https://easy-benchmarks.com/models/grok-4-3 および https://docs.x.ai/docs/models ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷ ↩¹⁸ ↩¹⁹
Awesome Agents — Grok 4.3 パラメータ確認（~0.5T）、動画入力、ドキュメント生成、Muskによる1T版の学習進捗確認 https://awesomeagents.ai/models/grok-4-3/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹
DeepSeek Hugging Face — DeepSeek-V4-Flash 公式モデルカード：284B/13B、ベンチマーク、MITライセンス https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷ ↩¹⁸ ↩¹⁹ ↩²⁰
DataLearnerAI — MiniMax M2.7 公式スペック（229B/10B）、ベンチマーク、価格 https://www.datalearner.com/en/ai-models/pretrained-models/minimax-m2-7 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³
Xiaomi MiMo 公式 — MiMo-V2.5 リリースページ：310B/15B、1Mコンテキスト、ClawEval https://mimo.xiaomi.com/mimo-v2-5/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
DocsBot — MiniMax M2.7 スペック（テキストモダリティのみ確認） https://docsbot.ai/models/minimax-m2-7 ↩
RemoteOpenClaw Blog — MiniMax M2.7 モデル比較、オープンソース状況 https://www.remoteopenclaw.com/blog/best-minimax-models-for-openclaw ↩
VentureBeat — Xiaomi MiMo-V2.5 シリーズ MITライセンスでオープンソース化 https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks ↩
Ufuk Ozen（Artificial Analysisデータ） — MiniMax M2.7：知能指数 49.6、コーディング指数 41.9、速度 42 tok/s https://ufukozen.com/model/minimax-minimax-m2.7 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
LLMBase.ai — MiMo-V2.5 vs Gemini 2.5 Flash 比較：GPQA 84.9%、HLE 25.2%、τ²-Bench 90.6% https://llmbase.ai/compare/gemini-2-5-flash-preview-09-2025-reasoning,mimo-v2-5-0424/ ↩ ↩² ↩³ ↩⁴
Codersera — DeepSeek V4 Flash 詳細分析：AA知能指数 47、速度 ~80 tok/s、TTFT 1.03秒（Non-Think） https://codersera.com/blog/deepseek-v4-flash-deep-dive/ ↩ ↩² ↩³ ↩⁴ ↩⁵
VentureBeat — Grok 4.3 発表記事：GDPval-AA ~300 ELO向上、CaseLaw v2 79.3%、CorpFin 1位 https://venturebeat.com/technology/xai-launches-grok-4-3-at-an-aggressively-low-price-and-a-new-fast-powerful-voice-cloning-suite ↩ ↩² ↩³ ↩⁴ ↩⁵
Agmazon — MiMo-V2.5 完全ガイド：Terminal-Bench 56.1%、GDPval-AA 1578–1581、価格 ~$0.50/$1.50 https://agmazon.com/blog/articles/technology/202604/mimo-v2-5-complete-guide-en.html ↩ ↩² ↩³ ↩⁴ ↩⁵
Yahoo Tech — MiMo 2.5 速度 100–150 tok/s 報道 https://tech.yahoo.com/ai/articles/xiaomis-mimo-2-5-pro-204235330.html ↩
Price Per Token — MiniMax M2.7 キャッシュ読取価格 $0.06/M https://pricepertoken.com/pricing-page/model/minimax-minimax-m2.7 ↩