总结Harness世界观：Runtime越笨，架构越稳定，把智能下沉到模型，把确定性留给框架

2026-04-01

很多人谈 agent 工程化，习惯从“模型更强”开始讲。但真正的分水岭，往往不在模型，而在 harness：那层把模型包进现实世界的运行时外壳。

harness 的目标只有一个：让模型在一个可控、可审计、可扩展的系统里持续干活。为了这个目标，最反直觉、也最有效的一条原则是：

Runtime 越笨，架构越稳定。把智能下沉到模型，把确定性留给框架。

下面把这套世界观拆开说清楚。

三代架构的迁移：从“流程驱动模型”到“模型驱动流程”

把过去几年常见的产品形态按控制权划分，大概是三代：

第三代的关键变化不是“加更多工具”，而是控制权翻转：框架不再告诉模型下一步做什么，而是让模型决定下一步做什么，框架只负责执行、约束、记录。

这一步一旦发生，harness 的设计哲学也必须跟着变。

一个典型的自主循环可以压成四步：Think → Act → Observe → Repeat。看起来简单，但它决定了谁负责什么。

当 Orchestrator 被设计得极其“笨”，它只做三件事：

而所有的推理、决策、以及“何时停止”，全部交给模型。

这会带来一个直接好处：运行时本身几乎不承载领域知识，因此：

所以“笨”不是贬义词，而是一种工程上的自我克制：把不确定性交给模型，把确定性放在框架里。

很多人做 agent 的第一反应是：给模型配一堆专项工具。但另一条更稳的路线是：只给少数能力原语——读、写、执行、连接。

其中最关键的通用适配器是 shell。给模型 shell 的意义在于：你不必预测未来的所有工具形态，只要保证“人类开发者会用的工具”都能通过 shell 组合出来。

这条路的底层假设是：

如果每次模型升级，你都要往框架里加更多“聪明编排”，那通常意味着你在对抗模型，而不是利用模型。

Agent 系统最普遍的失败模式之一，是上下文塌陷：对话越来越长，噪音越来越多，记忆退化、幻觉上升，模型在自己制造的垃圾里迷路。

所以把 context window 当作稀缺资源来管理，比追求更大窗口更重要。常见的三道防线是：

这一层的核心不是“更聪明”，而是“更节制”：把上下文当预算，把信息当资产，把噪音当债务。

多数人想象的“记忆”像一个更大的背包：装得越多越好。但更可持续的设计是：记忆是一套索引系统，而不是存储系统。

原则可以很硬：

原因很简单：对 agent 来说，记忆越多不一定越强，可能只是更贵、更慢、更容易错。记忆真正的价值是“减少不可逆的重复成本”，不是“复述一切细节”。

Agent 要走向生产环境，权限设计决定生死。

好的权限系统往往不是“允许/禁止”两档，而是一条可组合的信任光谱：从只读、到每次确认、到自动批准编辑、到白名单自动执行、再到组织托管下的完全放行。

这不是安全团队的洁癖，而是产品逻辑：

所以权限系统的难点是“让用户敢用”，而不仅是“理论上安全”。

当上下文预算成为瓶颈，多 agent 不是锦上添花，而是必然：

这里同样体现了 harness 世界观：框架提供最少但可靠的协作原语，复杂性留给模型与任务本身。

把智能压到模型里，把确定性留给框架里，最终带来一个很强的演化方向：

这就是 harness 的世界观： 让 runtime 做“笨但可靠”的底座，让模型承载“聪明但不确定”的决策。