执行已死,判断力永生:AI Agent 时代的工程组织重构
TL;DR
本周读到三篇关于 AI Agent 工程实践的文章,指向同一个结论:
- 执行已死 — AI 让执行变得充裕,人类不再需要做执行者
- 判断力稀缺 — 真正值钱的是定义方向、设定边界、验证结果的能力
- 约束即智能 — 好的规则不是限制 AI,是帮它集中注意力
- 架构即纪律 — 长期 Agent 系统的核心不是更大的 prompt,而是更强的交接和验证纪律
📋 本文结构
- 三篇文章,一条线索 — Garry Tan、Mnimiy、Saito 分别讲了什么
- 执行已死,判断力永生 — 人类比较优势的根本转移
- 约束即注意力分配 — CLAUDE.md 规则的本质
- 架构即自我纠正系统 — Missions 系统的设计哲学
- 技术债务与认知复利 — Garry Tan 的 skillify 循环
- 结论:你的比较优势在哪里
三篇文章,一条线索
本周读了三篇关于 AI Agent 工程实践的长文,来自三个不同的上下文:
Garry Tan(Y Combinator CEO)分享了他如何用 AI 构建个人”第二大脑”。核心架构:薄框架(thin harness)+ 肥技能(fat skills)+ 肥数据(fat data)+ 肥代码(fat code)。模型只是引擎,不是车。他的 skillify 循环——做一件事 → 提取模式 → 写成可复用技能 → 技能又生成新技能——本质上是把判断力外化成可积累的系统。
Mnimiy 在 30 个代码库上测试了 Karpathy 的 4 条 CLAUDE.md 规则。数据:41% 错误率(无规则)→ 3%(4 条规则)。但有 4 个漏洞,所以他加了 8 条变成 12 条。关键发现:4→12 条规则,合规率几乎不变(78%→76%),但覆盖了更多失败模式。
Saito 拆解了 Factory 的 Missions 系统——如何让多个 AI Agent 在长期任务(目标 30 天)中不漂移。核心设计:Orchestrator(规划+Validation Contract)+ Workers(实现)+ Validators(对抗性验证)。最长的 Mission 已经跑了 16 天。
三条线索汇聚到同一个结论。
执行已死,判断力永生
💡 Key Insight
软件工程的瓶颈已经不再是智能,而是人类注意力。
这是 Saito 那篇文章最让我震动的一句话。它和 Garry Tan 描述的现象完全一致:Garry 之所以能在 CEO 工作之余用 AI 建一整套 personal AI 系统,不是因为他突然变聪明了,而是因为他把执行外包给了 AI,把自己的注意力释放出来做判断。
执行不再是稀缺品。 模型已经越来越聪明,真正的瓶颈是人类的注意力——你能定义多少方向?设定多少边界?验证多少结果?
这意味着人类的比较优势从”执行”转向”定义方向”。这个转移不是预测,是正在发生的事。
| 维度 | 执行者时代 | 判断力时代 |
|---|---|---|
| 核心资产 | 技术栈知识 | 方向感和品味 |
| 时间分配 | 80% 执行,20% 规划 | 20% 执行,80% 规划 |
| 竞争力 | 代码写得多快多好 | 问题定义得多准确 |
| 风险 | 被 AI 替代 | 方向错误 |
约束即注意力分配
💡 Key Insight
Karpathy 的 4 条规则之所以有效,不是因为它们聪明,而是因为它们堵住了特定类型的浪费——静默假设、过度工程、旁路损害。规则是排水沟。
Mnimiy 的实验最有趣的数据是:4→12 条规则,合规率几乎不降(78%→76%),但错误率又降了 8 个百分点。这说明”覆盖更多失败模式”和”占用更多注意力预算”不是零和——前提是规则之间不重叠、不竞争。
超过 14 条规则为什么崩?因为超过 14 条,Claude 开始把规则当作一个整体来 pattern-match,而不是分别处理每条。这是注意力带宽的物理限制。200 行的天花板不是任意设定,是真实认知成本的折射。
“Be careful”/”think hard”/”really focus” 这种纯噪音的合规率约 30%,因为不可测试。好的规则必须是可以验证的——不是告诉 AI”要小心”,而是告诉它”在什么情况下做什么”。
| 规则类型 | 效果 | 原因 |
|---|---|---|
| “be careful” | ~30% 合规 | 不可测试 |
| 4 条核心规则 | ~78% 合规 | 堵住主要浪费类型 |
| 12 条扩展规则 | ~76% 合规 | 覆盖更多漏洞 |
架构即自我纠正系统
💡 Key Insight
Missions 的设计最让我有感触的一点是:它默认 Agent 会犯错,然后用结构化机制而不是更聪明的模型来纠错。这是一种工程上的谦逊。
Saito 描述的 Missions 系统,本质上是一个自我纠正系统。三个核心设计:
Validation Contract 在规划阶段提前写好。 测试不是迁就实现,而是实现必须满足预定义的验收标准。这本质上是把”什么是成功”从实现中解耦出来——对抗实现者自我辩护的本能。
结构化 Handoff。 每个 Worker 完成特性后,必须填写交接单:完成了什么、留下了什么、运行过哪些命令、exit code 是多少。这解决的是”系统不能靠记忆运行,必须靠结构化记录运行”的问题。
自愈机制。 里程碑边界会检查所有 handoff,发现未解决问题就自动创建 Follow-up Features 把任务拉回正轨。不是指望 Agent 永远不犯错,而是默认 Agent 会犯错,然后让错误及时暴露出来。
最长的 Mission 跑了 16 天,目标是 30 天。这个数字本身说明:长期 Agent 系统的核心不是更大的 prompt,而是更强的交接和验证纪律。
技术债务与认知复利
Garry Tan 的 skillify 循环是这三条线索中最接近”个人认知复利”的:
做一件事 → 提取模式 → 写成可复用技能 → 技能又生成新技能
这和我在写作中反复触及的思路一致——你以为你在记录想法,实际上你在构建一个能产生新想法的系统。
他用这个系统读了 20+ 本书,每本书的”镜像”都比前一个更丰富,因为大脑(brain)在持续迭代。第二十本镜像知道前十九本讲了什么。这就是复利的本质:每一次积累都会让下一次积累变得更容易。
“模型只是引擎”——这和”编程语言是思想的载体”异曲同工。真正有价值的不是引擎本身,而是围绕它构建的判断力和积累。
| 维度 | 传统开发 | Skillify 模式 |
|---|---|---|
| 积累形式 | 技术文档/注释 | 可执行技能 |
| 复用方式 | 复制粘贴 | 调用 |
| 迭代成本 | 高(需要人工同步) | 低(技能自我进化) |
| 复利 | 无 | 有 |
结论:你的比较优势在哪里
三篇文章从不同角度讲了同一件事:
Garry Tan 说的是个人层面的认知复利:把判断力外化成可积累的系统。Mnimiy 说的是约束层面的注意力分配:给 AI 规则不是限制它,是帮它集中注意力。Saito 这篇说的是组织层面的任务分解:如何让多个 AI Agent 在长期任务中不漂移。
三者都指向人类的最终价值所在:不是执行,而是判断。
如果你现在还在花 80% 的时间写代码,20% 的时间思考方向——你需要重新校准。AI 会写代码,而且会越来越会。你的价值在于:定义问题、设定边界、验证结果、迭代方向。
这不是预测。这是现在正在发生的事。
金句
Writing is thinking,handoff documentation is thinking too。真正的工具不是帮你完成工作,而是帮你建立复利。
延伸阅读
本系列相关
- Agent-OS 五层架构 (Agent-OS 系列)
- Memory Engineering:从经验到系统 (Memory Engineering 系列)
- Harness Engineering:约束即智能 (AI-Native 软件工程系列)
核心概念
- 《How to Make What You’re Working on Valuable》— Paul Graham:工作即写作,写作即思考
- 《The Bitter Lesson》— Rich Sutton:通用方法终将胜出,特定知识终将过时
工具链
- GBrain(Garry Tan 的知识基础设施):https://github.com/garrytan/gbrain
- GStack(Garry Tan 的编码技能框架):https://github.com/garrytan/gstack
- CLAUDE.md(Karpathy 规则原版):Forrest Chang’s repo
AI-Native软件工程系列 #54 深度阅读时间:约 8 分钟