BotOf Tech — 技术与植物养护笔记

完整 Harness 的目标，不是让 Agent 一次性生成更多代码，而是让它在每一轮都能更接近可交付结果。

这需要一个闭环：任务进入系统，经过计划和边界确认，Agent 执行单一 feature，验证器独立检查，运行信号进入反馈，状态写回仓库，最后留下干净现场。下一轮从这个状态继续。

完整闭环的组件

这不是必须一次搭完的复杂系统，而是可以逐步叠加的工程骨架。

计划器、执行者、验证器可以是三个独立 Agent，也可以是同一个工具的三次不同调用。关键是不要让同一个上下文既写代码又轻易批准自己。

对于小项目，可以人工扮演计划器，把 Agent 用作执行者和验证器。对于长任务，再逐步自动化。

只要任一阶段失败，就不要跳到“完成”。失败也是输出，必须写回状态。

Agent 需要的反馈不是一句“再改改”。反馈要分层，越具体越能减少重试成本。

这类反馈会让下一轮直接朝根因走。

可以用一个两小时练习检验 Harness 价值。

组别	条件
A 组	只给自然语言任务
B 组	给入口、功能清单、初始化脚本、验收条件

比较指标：

如果 B 组明显更稳，就说明 Harness 正在发挥作用。

选择最近三次人类 review 中重复出现的问题，把它升级成 Harness 能力。

这是 Harness 变强的主要方式：把人的一次判断，变成系统的长期能力。

不要跳级。没有最小工作区时，直接上多 Agent 调度只会把混乱自动化。

Harness Engineering 的核心不是让 Agent 更听话，而是让工作可恢复、可验证、可改进。

强模型会继续变强，但长期可靠性仍然取决于外部系统：任务是否清楚、环境是否可跑、状态是否可读、反馈是否具体、完成是否有证据、交接是否干净。

把这些做好，Agent 才从一次性生成器变成可协作的工程执行者。