Apr 28, 2026

Xiaomi MiMo V2.5 Pro：モデルが11時間連続作業を覚えた日

XiaomiのMiMo V2.5 Pro（1.02Tパラメータ、42Bアクティブ、MITライセンス）が4.3時間でコンパイラを完成させ、11.5時間で8,192行の動画編集ソフトを構築した。評価軸はスコアから持続力へ。

競争軸がスコアから持久力へ移行している

モデルリリースはインフレを起こしている。毎週のように新しいモデルが「GPTやClaude、DeepSeekに追いついた／抜いた」と主張する。しかしXiaomiが本日発表したMiMo V2.5 Proは異なる道を選んだ。ベンチマークスコアを前面に出すのではなく、三つの具体的な成果で自らを定義した——完全なSysYコンパイラを無監督で書き上げ（233/233満点、672回のツール呼び出し、4.3時間）、8,192行の動画編集ソフトを自律構築し（1,868回のツール呼び出し、11.5時間）、アナログチップ設計の最適化を完遂した。この三つが測っているのは異なる種類の能力だ。人間の介在なしに半日作業を継続する信頼性である¹。

これは注目すべき競争軸の転換だ。過去2年間、AIモデルの評価は静的ベンチマークスコア（GPQA、MMLU、Terminal-Bench）に過度に集中してきた。しかしMiMo V2.5 Proの登場が示唆するのは、次なる戦場が自律作業の持続時間と複雑さになる可能性だ。モデルが介在なしにどれだけの長さのタスクチェーンを実行できるか、その過程で自身のコンテキストとツールをどう管理するか、エラー発生時に自己修復できるか。

三つの数字がこのモデルを定義する

第一グループ：規模とアーキテクチャ。 MiMo V2.5 Proは1.02兆パラメータのMixture-of-Expertsモデルで、推論時に420億パラメータをアクティベートする。ハイブリッド注意機構を採用——局所スライディングウィンドウ注意とグローバル注意を6:1の比率でインターリーブし、ウィンドウサイズは128トークン。この設計により長コンテキスト下でのKVキャッシュ保存量を約7分の1に削減する。事前学習データは27兆トークン、FP8混合精度を使用し、ネイティブ32Kシーケンス長で訓練、コンテキストウィンドウは100万トークンまで拡張されている¹。

第二グループ：自律タスクの遂行力。 Xiaomiが選んだ三つのタスクは無作為ではない——それらは明確に異なる知的形態をカバーしている：

SysYコンパイラ：北京大学のコンパイラ原理コースのプロジェクト課題。学生にRustで完全なコンパイラパイプラインをゼロから実装することを求める——字句解析、構文解析、AST、Koopa IRコード生成、RISC-Vバックエンド、パフォーマンス最適化。参考実装は通常、北大CS専攻の学生が数週間かける。MiMo V2.5 Proは4.3時間、672回のツール呼び出しで完了し、隠しテストスイートで233/233の満点を獲得。示唆的なディテール：初回コンパイルで既に137/233テストを通過（59%のコールドスタート通過率）。アーキテクチャ設計が最初のイテレーションで基本的に正しかったことを示し、試行錯誤によるパッチワークではない。第512ターンでリファクタリングが2つのテストリグレッションを引き起こしたが、モデルは自ら障害を診断し、回復し、前進を続けた¹。
動画エディタ：いくつかのシンプルなプロンプトから、モデルは完全に機能するマルチトラック動画エディタを自律的に完成させた——タイムライン、トリミング、クロスフェード、オーディオミキシング、エクスポートパイプラインを含む。最終コード量8,192行、1,868回のツール呼び出し、11.5時間の持続作業¹。
アナログチップFVF-LDO設計：大学院レベルのアナログ回路EDAタスク——TSMC 180nm CMOSプロセスで完全なFVF-LDO（反転電圧フォロワ型低ドロップアウトレギュレータ）をゼロから設計・最適化する。モデルはngspiceシミュレーションループを通じて閉ループ反復——パラメータ調整、波形読み取り、再調整——を約1時間実施し、全目標指標を仕様内に収め、そのうち4項目は初期設計から一桁改善された¹。

第三グループ：トークン効率。 ClawEval評価において、MiMo V2.5 Proは約7万トークン／軌跡のコストで64% Pass³を達成。Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4が同等の能力水準で必要とするトークンより40〜60%少ない。開発者は大幅に少ない推論オーバーヘッドで同レベルの作業成果を得られる¹。

「ハーネス認識」——新しい能力次元

Xiaomiは発表記事で注目すべき概念を導入した：ハーネス認識（harness awareness）。彼らの観察によれば、V2.5 Proは長時間の自律作業中に自身の動作環境に対する構造化された理解を示す——どのツールスキャフォールドが自分をプロキシしているかを把握し、コンテキストウィンドウを能動的に管理し、最終目標に向けて自身のコンテキストの構成方法さえも整形する。

これは従来の「ツール使用」能力ではない。従来の評価が測るのは「ツールの説明を与えられたとき、モデルが正しく呼び出せるか」だ。ハーネス認識が測るのは「モデルが千ステップ規模のタスクを通じて、自身とツール環境との関係を持続的に理解し最適化できるか」である。両者の違いは「IDEでコードを書ける」ことと「見知らぬシステム上で環境構築からツールチェーン作成、バグ特定、本番デプロイまでできる」ことの差に等しい。

この能力次元の競争的含意は明確だ。静的な指標（MMLU、GPQA）が飽和に近づきモデル間の差が縮小する中で、動的・長期的・自律的なタスク完了能力が新たな差別化軸として浮上している。このトレンドが続けば、次世代モデル評価の基準は「テストセット正解率」から「無監督稼働距離・持続時間・信頼性」へと移行するだろう。

XiaomiのAI戦略シグナル

MiMo V2.5 Proのリリース論理はDeepSeek V4と微妙な対称性を持つ：

DeepSeekの差別化：コスト構造革命——1/10の価格でフロンティア能力を提供
MiMo V2.5 Proの差別化：自律作業持久力——より長い安定稼働時間による高いエンジニアリング生産性

両者ともオープンソースであり、両者ともHuggingFace上で緩やかなライセンス（MIT）の下に重みを公開し、両者とも異なる方法で「フロンティア」の意味を再定義している。DeepSeekはフロンティアのコストを再定義し、Xiaomiはフロンティアの形態を再定義している。

さらに注目すべきはXiaomiの訓練方法論だ。三段階のポストトレーニングパイプライン——教師ありファインチューニングで基盤を確立、ドメイン特化型エキスパート訓練（数学、安全性、エージェンティックツール使用などの方向ごとに独立した教師モデルを使用）、マルチティーチャー方策蒸留（単一の学生モデルが複数のエキスパート教師からのオンラインサンプリングを通じて学習）。このアーキテクチャの巧妙さは、万能な単一教師モデルを追求しない点にある。代わりに複数の専門化された教師がそれぞれのドメインを最適化し、それを蒸留によって一つの学生モデルに融合する¹。この「分割統治-融合」訓練戦略が、長周期タスク安定性を実現する鍵となる技術経路かもしれない。

競争環境：ベンチマークスコアの価値低下

MiMo V2.5 Proのベンチマーク表では、複数の指標が「最高のオープンソース」または「最高の総合」と記されている。しかし現在の競争環境において、ベンチマークスコアの限界情報価値は逓減しつつある——5つのモデルが同じテストで2パーセントポイント未満の差しかないとき、選択基準はスコアからエコシステム、コスト、ツールチェーン互換性、特定ドメインの信頼性へと移行する。

MiMoは後者の道を選んだ。すべてのベンチマークで一位を争うのではなく、まだ十分に開拓されていない次元——長時間自律作業の信頼性——を見出し、そこに定量化可能な優位性を構築した。8,192行のコード、1,868回のツール呼び出し、11.5時間の無停止稼働——これらは伝統的なML指標ではないが、開発者が実際に気にする問いに対して、あと0.5%のpass@1改善よりもはるかに直接的に答える：午後一杯分の仕事を任せられるか？

この戦略が奏功するかは二つの変数に依存する。他のラボがどれだけ早く長周期評価基準を採用するか、そして開発者コミュニティがどれだけ早く「自律作業時間」を実際のモデル選定判断に組み込むか。

参考文献

Xiaomi MiMo 公式 — MiMo-V2.5-Pro リリース発表、アーキテクチャ詳細、自律タスク記述、ベンチマーク結果、訓練方法論を含む、2026年4月27日：https://mimo.xiaomi.com/mimo-v2-5-pro/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷