新闻 深度 观点 研究 数据 资源 活动 关于

小米 MiMo V2.5 Pro:当模型学会连续工作11个小时

小米发布 MiMo V2.5 Pro:1.02T参数 MoE 模型,42B 激活,1M 上下文,完全开源。在长周期自主任务上展现出一项被低估的能力——持续千步以上的结构化工作纪律。

竞争轴正在从分数转向耐力

模型发布正在通货膨胀。每周都有新模型声称在某个基准测试上追平或超越了GPT、Claude或DeepSeek。但小米今天发布的MiMo V2.5 Pro选择了一条不同的路:它没有主打基准测试分数,而是用三件具体的事定义了自身——在无人监督下写了一个完整的SysY编译器(233/233满分,672次工具调用,4.3小时),独立构建了一个8192行的视频编辑器(1868次工具调用,11.5小时),以及完成了模拟芯片的设计优化。这三件事衡量的是一种不同的能力:持续工作半天的可靠性1

这是一条值得注意的竞争轴转移。在过去两年里,AI模型的评价体系高度集中在静态基准分数上——GPQA、MMLU、Terminal-Bench。但MiMo V2.5 Pro的发布暗示,下一个战场可能是自主工作的持续时间和复杂度:模型能在无人干预的情况下执行多长的任务链,在过程中如何管理自己的上下文和工具,出错后能否自愈。

三组数据定义了这个模型

第一组:规模和架构。 MiMo V2.5 Pro 是一个1.02万亿参数的Mixture-of-Experts模型,每次推理激活420亿参数。它采用混合注意力机制——局部滑动窗口注意力与全局注意力以6:1的比例交错排列,窗口128 token。这种设计在长上下文下将KV缓存存储量削减了近7倍。预训练数据量为27万亿token,使用FP8混合精度,原生32K序列长度,上下文扩展至100万token1

第二组:自主任务表现。 这三个任务的选择不是随机的——它们覆盖了截然不同的智力形态:

  • SysY编译器:这是一个来自北京大学编译原理课程的项目,要求学生从零用Rust实现完整的编译器管道——词法分析、语法分析、AST、Koopa IR代码生成、RISC-V后端、性能优化。参考实现通常需要PKU计算机专业学生数周时间。MiMo V2.5 Pro用时4.3小时、672次工具调用完成,在隐藏测试集上拿到233/233满分。关键细节:首次编译就通过了137/233个测试(59%冷启动通过率),表明架构设计在第一轮迭代中就已经基本正确,而非靠试错修补。在第512轮时,一次重构导致2个测试回归,模型自行诊断、修复、继续推进1

  • 视频编辑器:几个简单prompt下,模型自主完成了一个功能完整的多轨视频编辑器——包含时间线、裁剪、淡入淡出、音频混音和导出管道。最终代码量8192行,跨1868次工具调用,耗时11.5小时1

  • 模拟芯片FVF-LDO设计:这是一个研究生级别的模拟电路EDA任务——在台积电180nm CMOS工艺下设计和优化一个完整的FVF-LDO(翻转电压跟随器型低压差线性稳压器)。模型通过ngspice仿真闭环迭代——调参数、读波形、再调参——约一小时内让所有目标指标达标,其中四项相比初始设计改进了一个数量级1

第三组:token效率。 在ClawEval评测上,MiMo V2.5 Pro以约7万token/轨迹的成本达到64% Pass^3,比Claude Opus 4.6、Gemini 3.1 Pro和GPT-5.4在同等能力水平下少用了40-60%的token。这意味着开发者用更少的推理开销就能获得相同级别的工作成果1

“harness awareness” — 一个新能力维度

小米在发布文章中提到了一个值得注意的概念:harness awareness(工具链感知)。他们的观察是,V2.5 Pro在长时间自主工作中展现出对所处环境的结构化理解——它知道自己正在被什么工具框架代理,主动管理上下文窗口,甚至塑造自己的上下文填充方式以服务于最终目标。

这不是传统的”工具使用”能力。传统评测测的是”给定一个工具描述,模型能否正确调用它”。Harness awareness测的是”模型能不能在千步级任务中持续理解并优化自己与工具环境的关系”。两者的区别相当于从”会用IDE写代码”到”能在一个陌生系统里自己搭环境、写工具链、定位bug、上线部署”。

这个能力维度的竞争含义很清楚:在静态度量(MMLU、GPQA)趋于饱和、各模型差距缩小的背景下,动态、长周期、自主化的任务完成能力正在成为新的差异化轴线。如果这一趋势持续,下一代模型评测的标准将从”测试集正确率”转向”无人干预下的运行距离、持续时间和可靠性”。

小米的AI战略信号

MiMo V2.5 Pro的发布逻辑与DeepSeek V4有微妙的对称性:

  • DeepSeek的差异化:成本结构革命——用1/10的价格提供前沿能力
  • MiMo V2.5 Pro的差异化:自主工作耐力——用更长的稳定工作时间提供更高的工程产出

两者都在开源、都在MIT/宽松许可证下发布权重到HuggingFace,都在用不同的方式重新定义”前沿”的含义。DeepSeek在重新定义前沿的成本,小米在重新定义前沿的形态。

更值得关注的是小米的训练方法论:三阶段后训练——监督微调建立基础、领域专家训练(数学、安全、agentic工具使用等方向各用独立教师模型)、多教师策略蒸馏(单个学生模型从多个专家教师的在线采样中学习)。这个架构的巧妙之处在于:它不追求一个全能教师模型,而是让多个专业化教师分别优化各自领域,再通过蒸馏融合到一个学生模型中1。这种”分治-融合”的训练策略,可能是实现长周期任务稳定性的关键技术路径。

竞争格局:基准分数的贬值

MiMo V2.5 Pro的基准测试表中,多项指标标注为”最佳开源”或”最佳综合”。但在当前竞争环境下,基准分数的边际信息量正在递减——当5个模型在同一个测试上相差不到2个百分点时,选择依据就从分数转移到了生态、成本、工具链兼容性和特定场景的可靠性。

MiMo选择了后一条路:它没有在每一个基准上争第一,而是找了一个尚未被充分开发的维度——长时间自主工作的可靠性——并在这个维度上建立了可量化的优势。8192行代码、1868次工具调用、11.5小时无崩溃运行——这些数字不是传统的ML指标,但它们比另一个0.5%的pass@1提升更直观地回答了开发者真正关心的问题:它能帮我干完一整个下午的活吗?

这个策略是否奏效,取决于两个变量:其他实验室多快跟进长周期评估标准,以及开发者社区多快将”自主工作时间”纳入实际选型决策。

参考资料

Footnotes

  1. Xiaomi MiMo Official — MiMo-V2.5-Pro 发布公告,包含架构细节、自主任务描述、基准测试结果、训练方法论,2026年4月27日:https://mimo.xiaomi.com/mimo-v2-5-pro/ 2 3 4 5 6 7