Apr 28, 2026

小米 MiMo V2.5 Pro：当模型学会连续工作11个小时

小米发布 MiMo V2.5 Pro：1.02T参数 MoE 模型，42B 激活，1M 上下文，完全开源。在长周期自主任务上展现出一项被低估的能力——持续千步以上的结构化工作纪律。

竞争轴正在从分数转向耐力

模型发布正在通货膨胀。每周都有新模型声称在某个基准测试上追平或超越了GPT、Claude或DeepSeek。但小米今天发布的MiMo V2.5 Pro选择了一条不同的路：它没有主打基准测试分数，而是用三件具体的事定义了自身——在无人监督下写了一个完整的SysY编译器（233/233满分，672次工具调用，4.3小时），独立构建了一个8192行的视频编辑器（1868次工具调用，11.5小时），以及完成了模拟芯片的设计优化。这三件事衡量的是一种不同的能力：持续工作半天的可靠性¹。

这是一条值得注意的竞争轴转移。在过去两年里，AI模型的评价体系高度集中在静态基准分数上——GPQA、MMLU、Terminal-Bench。但MiMo V2.5 Pro的发布暗示，下一个战场可能是自主工作的持续时间和复杂度：模型能在无人干预的情况下执行多长的任务链，在过程中如何管理自己的上下文和工具，出错后能否自愈。

三组数据定义了这个模型

第一组：规模和架构。 MiMo V2.5 Pro 是一个1.02万亿参数的Mixture-of-Experts模型，每次推理激活420亿参数。它采用混合注意力机制——局部滑动窗口注意力与全局注意力以6:1的比例交错排列，窗口128 token。这种设计在长上下文下将KV缓存存储量削减了近7倍。预训练数据量为27万亿token，使用FP8混合精度，原生32K序列长度，上下文扩展至100万token¹。

第二组：自主任务表现。 这三个任务的选择不是随机的——它们覆盖了截然不同的智力形态：

SysY编译器：这是一个来自北京大学编译原理课程的项目，要求学生从零用Rust实现完整的编译器管道——词法分析、语法分析、AST、Koopa IR代码生成、RISC-V后端、性能优化。参考实现通常需要PKU计算机专业学生数周时间。MiMo V2.5 Pro用时4.3小时、672次工具调用完成，在隐藏测试集上拿到233/233满分。关键细节：首次编译就通过了137/233个测试（59%冷启动通过率），表明架构设计在第一轮迭代中就已经基本正确，而非靠试错修补。在第512轮时，一次重构导致2个测试回归，模型自行诊断、修复、继续推进¹。
视频编辑器：几个简单prompt下，模型自主完成了一个功能完整的多轨视频编辑器——包含时间线、裁剪、淡入淡出、音频混音和导出管道。最终代码量8192行，跨1868次工具调用，耗时11.5小时¹。
模拟芯片FVF-LDO设计：这是一个研究生级别的模拟电路EDA任务——在台积电180nm CMOS工艺下设计和优化一个完整的FVF-LDO（翻转电压跟随器型低压差线性稳压器）。模型通过ngspice仿真闭环迭代——调参数、读波形、再调参——约一小时内让所有目标指标达标，其中四项相比初始设计改进了一个数量级¹。

第三组：token效率。 在ClawEval评测上，MiMo V2.5 Pro以约7万token/轨迹的成本达到64% Pass^3，比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4在同等能力水平下少用了40-60%的token。这意味着开发者用更少的推理开销就能获得相同级别的工作成果¹。

“harness awareness” — 一个新能力维度

小米在发布文章中提到了一个值得注意的概念：harness awareness（工具链感知）。他们的观察是，V2.5 Pro在长时间自主工作中展现出对所处环境的结构化理解——它知道自己正在被什么工具框架代理，主动管理上下文窗口，甚至塑造自己的上下文填充方式以服务于最终目标。

这不是传统的”工具使用”能力。传统评测测的是”给定一个工具描述，模型能否正确调用它”。Harness awareness测的是”模型能不能在千步级任务中持续理解并优化自己与工具环境的关系”。两者的区别相当于从”会用IDE写代码”到”能在一个陌生系统里自己搭环境、写工具链、定位bug、上线部署”。

这个能力维度的竞争含义很清楚：在静态度量（MMLU、GPQA）趋于饱和、各模型差距缩小的背景下，动态、长周期、自主化的任务完成能力正在成为新的差异化轴线。如果这一趋势持续，下一代模型评测的标准将从”测试集正确率”转向”无人干预下的运行距离、持续时间和可靠性”。

小米的AI战略信号

MiMo V2.5 Pro的发布逻辑与DeepSeek V4有微妙的对称性：

DeepSeek的差异化：成本结构革命——用1/10的价格提供前沿能力
MiMo V2.5 Pro的差异化：自主工作耐力——用更长的稳定工作时间提供更高的工程产出

两者都在开源、都在MIT/宽松许可证下发布权重到HuggingFace，都在用不同的方式重新定义”前沿”的含义。DeepSeek在重新定义前沿的成本，小米在重新定义前沿的形态。

更值得关注的是小米的训练方法论：三阶段后训练——监督微调建立基础、领域专家训练（数学、安全、agentic工具使用等方向各用独立教师模型）、多教师策略蒸馏（单个学生模型从多个专家教师的在线采样中学习）。这个架构的巧妙之处在于：它不追求一个全能教师模型，而是让多个专业化教师分别优化各自领域，再通过蒸馏融合到一个学生模型中¹。这种”分治-融合”的训练策略，可能是实现长周期任务稳定性的关键技术路径。

竞争格局：基准分数的贬值

MiMo V2.5 Pro的基准测试表中，多项指标标注为”最佳开源”或”最佳综合”。但在当前竞争环境下，基准分数的边际信息量正在递减——当5个模型在同一个测试上相差不到2个百分点时，选择依据就从分数转移到了生态、成本、工具链兼容性和特定场景的可靠性。

MiMo选择了后一条路：它没有在每一个基准上争第一，而是找了一个尚未被充分开发的维度——长时间自主工作的可靠性——并在这个维度上建立了可量化的优势。8192行代码、1868次工具调用、11.5小时无崩溃运行——这些数字不是传统的ML指标，但它们比另一个0.5%的pass@1提升更直观地回答了开发者真正关心的问题：它能帮我干完一整个下午的活吗？

这个策略是否奏效，取决于两个变量：其他实验室多快跟进长周期评估标准，以及开发者社区多快将”自主工作时间”纳入实际选型决策。

参考资料

Xiaomi MiMo Official — MiMo-V2.5-Pro 发布公告，包含架构细节、自主任务描述、基准测试结果、训练方法论，2026年4月27日：https://mimo.xiaomi.com/mimo-v2-5-pro/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷