小米用这些实验来凸显 V2.5-Pro 的 "harness awareness",也就是"脚手架意识",模型会主动管理自己的记忆,塑造上下文,在数千次连续工具调用中维持一致性
4 月底,小米开源了 MiMo-V2.5 和 MiMo-V2.5-Pro。
其中 Pro 是专门为"长周期一致性"和复杂软件工程设计的,一个参数规模 1.02T、活跃参数 42B 的 MoE 模型,支持最高 100 万 token 的上下文窗口。
小米用三组实验说明它能做什么:
Rust 编译器:从零实现,包括 lexer、parser 和 RISC-V 汇编后端。用时 4.3 小时,横跨 672 次工具调用,隐藏测试集 233/233 满分。这个任务通常需要计算机科学专业学生花数周时间完成。
视频编辑器:11.5 小时,1868 次工具调用,最终生成 8192 行的桌面应用,具备多轨时间线和导出流水线。
模拟 EDA 优化:研究生级别的工程任务,在 TSMC 180nm 工艺下优化 FVF-LDO 稳压器,通过不断迭代 ngspice 仿真循环,线性调整率等指标较初始提升 22 倍。
这三个任务有一个共同特征:不是单次问答,而是在数千次工具调用构成的超长序列中,模型必须记住自己在做什么、做到哪儿了、接下来该干什么。
“脚手架意识"是训练出来的,不是涌现的
小米把这个能力叫 “harness awareness”,中文翻译是"脚手架意识”。
所谓脚手架,就是 Claude Code、OpenCode 这类自主 Agent 框架。模型在里面工作时,不是单轮对话,而是一个横跨几小时、上千次工具调用的连续任务。问题在于,随着上下文越来越长,模型很容易"迷失"——忘记初始目标、在细节里打转、或者把已经完成的步骤重复一遍。
V2.5-Pro 的训练目标之一,就是专门注入这种意识:主动管理记忆、塑造上下文、在超长序列中维持一致性。
这不是架构带来的,是后训练阶段强化学习的结果。在 RL 阶段,V2.5-Pro 专门针对 agentic 场景中的指令遵循进行训练——确保模型能遵守深藏在超长上下文中的细微要求,并在自主执行过程中从错误中优雅恢复。
混合注意力:快速扫描 + 高密度聚焦
架构上,V2.5-Pro 用了一个设计思路:局部滑动窗口注意力和全局注意力以 6:1 的比例交错排列,窗口大小 128 token。
效果是:模型可以快速扫过绝大部分上下文,只对当前目标最相关的约 15% 数据施加高密度注意力。同时,KV-cache 存储量减少近 7 倍。
对于调试大型代码仓库这类任务,这个设计直接有用——不需要对每一行代码都"全神贯注",但关键信息不能漏。
与 DeepSeek-V4 相比,V2.5-Pro 架构创新更工程化,更接近主流推理框架可部署方案,DeepSeek 在系统栈和底层 kernel 优化上走得更远,但部署门槛也更高。
Token 效率是真实优势
Artificial Analysis 的评测显示,在同一套 Intelligence Index 测评中,不同模型的 token 消耗差异很大:DeepSeek V4 Flash、GPT-5.4 mini、Claude Sonnet 4.6 等模型动辄消耗 2 亿级输出 token;V2.5-Pro 约为 9200 万,在能力接近的模型里,比 Claude Opus 4.6、Gemini 3.1 Pro 等少用约 40%–60%。
罗福莉(小米大模型负责人)说过"价格战是陷阱",但小米的逻辑不是不卷价格,而是先卷效率:用更少的 token 完成同样的任务,这才是对用户真正的省钱。
开源 + 免费 token,抢占开发者心智
模型采用 MIT License,适合商业用途,可本地或私有云部署。开源同时,罗福莉宣布提供 100 万亿免费 token,目前已有用户收到入选邮件。
这个节奏很清晰:开源获得信任,免费 token 降低迁移成本,让开发者在 Agent 框架里把 MiMo 用起来,形成习惯。
在 GitHub Copilot 宣布转向按用量计费、AI 推理补贴时代开始退潮的时间节点上,小米的这个动作时机算是选得不错。
参考:小米最新开源大模型,代码能力超 Claude Opus 4.6,100 万亿 free token,褚杏娟,AI 前线,2026-04-28