小米用这些实验来凸显 V2.5-Pro 的 "harness awareness"，也就是"脚手架意识"，模型会主动管理自己的记忆，塑造上下文，在数千次连续工具调用中维持一致性

2026-04-28

4 月底，小米开源了 MiMo-V2.5 和 MiMo-V2.5-Pro。

其中 Pro 是专门为"长周期一致性"和复杂软件工程设计的，一个参数规模 1.02T、活跃参数 42B 的 MoE 模型，支持最高 100 万 token 的上下文窗口。

小米用三组实验说明它能做什么：

Rust 编译器：从零实现，包括 lexer、parser 和 RISC-V 汇编后端。用时 4.3 小时，横跨 672 次工具调用，隐藏测试集 233/233 满分。这个任务通常需要计算机科学专业学生花数周时间完成。

视频编辑器：11.5 小时，1868 次工具调用，最终生成 8192 行的桌面应用，具备多轨时间线和导出流水线。

模拟 EDA 优化：研究生级别的工程任务，在 TSMC 180nm 工艺下优化 FVF-LDO 稳压器，通过不断迭代 ngspice 仿真循环，线性调整率等指标较初始提升 22 倍。

这三个任务有一个共同特征：不是单次问答，而是在数千次工具调用构成的超长序列中，模型必须记住自己在做什么、做到哪儿了、接下来该干什么。

“脚手架意识"是训练出来的，不是涌现的

小米把这个能力叫 “harness awareness”，中文翻译是"脚手架意识”。

所谓脚手架，就是 Claude Code、OpenCode 这类自主 Agent 框架。模型在里面工作时，不是单轮对话，而是一个横跨几小时、上千次工具调用的连续任务。问题在于，随着上下文越来越长，模型很容易"迷失"——忘记初始目标、在细节里打转、或者把已经完成的步骤重复一遍。

V2.5-Pro 的训练目标之一，就是专门注入这种意识：主动管理记忆、塑造上下文、在超长序列中维持一致性。

这不是架构带来的，是后训练阶段强化学习的结果。在 RL 阶段，V2.5-Pro 专门针对 agentic 场景中的指令遵循进行训练——确保模型能遵守深藏在超长上下文中的细微要求，并在自主执行过程中从错误中优雅恢复。

混合注意力：快速扫描 + 高密度聚焦

架构上，V2.5-Pro 用了一个设计思路：局部滑动窗口注意力和全局注意力以 6:1 的比例交错排列，窗口大小 128 token。

效果是：模型可以快速扫过绝大部分上下文，只对当前目标最相关的约 15% 数据施加高密度注意力。同时，KV-cache 存储量减少近 7 倍。

对于调试大型代码仓库这类任务，这个设计直接有用——不需要对每一行代码都"全神贯注"，但关键信息不能漏。

与 DeepSeek-V4 相比，V2.5-Pro 架构创新更工程化，更接近主流推理框架可部署方案，DeepSeek 在系统栈和底层 kernel 优化上走得更远，但部署门槛也更高。

Token 效率是真实优势

Artificial Analysis 的评测显示，在同一套 Intelligence Index 测评中，不同模型的 token 消耗差异很大：DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型动辄消耗 2 亿级输出 token；V2.5-Pro 约为 9200 万，在能力接近的模型里，比 Claude Opus 4.6、Gemini 3.1 Pro 等少用约 40%–60%。

罗福莉（小米大模型负责人）说过"价格战是陷阱"，但小米的逻辑不是不卷价格，而是先卷效率：用更少的 token 完成同样的任务，这才是对用户真正的省钱。

开源 + 免费 token，抢占开发者心智

模型采用 MIT License，适合商业用途，可本地或私有云部署。开源同时，罗福莉宣布提供 100 万亿免费 token，目前已有用户收到入选邮件。

这个节奏很清晰：开源获得信任，免费 token 降低迁移成本，让开发者在 Agent 框架里把 MiMo 用起来，形成习惯。

在 GitHub Copilot 宣布转向按用量计费、AI 推理补贴时代开始退潮的时间节点上，小米的这个动作时机算是选得不错。

参考：小米最新开源大模型，代码能力超 Claude Opus 4.6，100 万亿 free token，褚杏娟，AI 前线，2026-04-28