执行已死，判断力永生：AI Agent 时代的工程组织重构

TL;DR

本周读到三篇关于 AI Agent 工程实践的文章，指向同一个结论：

执行已死 — AI 让执行变得充裕，人类不再需要做执行者

判断力稀缺 — 真正值钱的是定义方向、设定边界、验证结果的能力

约束即智能 — 好的规则不是限制 AI，是帮它集中注意力

架构即纪律 — 长期 Agent 系统的核心不是更大的 prompt，而是更强的交接和验证纪律

📋 本文结构

三篇文章，一条线索 — Garry Tan、Mnimiy、Saito 分别讲了什么
执行已死，判断力永生 — 人类比较优势的根本转移
约束即注意力分配 — CLAUDE.md 规则的本质
架构即自我纠正系统 — Missions 系统的设计哲学
技术债务与认知复利 — Garry Tan 的 skillify 循环
结论：你的比较优势在哪里

三篇文章，一条线索

本周读了三篇关于 AI Agent 工程实践的长文，来自三个不同的上下文：

Garry Tan（Y Combinator CEO）分享了他如何用 AI 构建个人”第二大脑”。核心架构：薄框架（thin harness）+ 肥技能（fat skills）+ 肥数据（fat data）+ 肥代码（fat code）。模型只是引擎，不是车。他的 skillify 循环——做一件事 → 提取模式 → 写成可复用技能 → 技能又生成新技能——本质上是把判断力外化成可积累的系统。

Mnimiy 在 30 个代码库上测试了 Karpathy 的 4 条 CLAUDE.md 规则。数据：41% 错误率（无规则）→ 3%（4 条规则）。但有 4 个漏洞，所以他加了 8 条变成 12 条。关键发现：4→12 条规则，合规率几乎不变（78%→76%），但覆盖了更多失败模式。

Saito 拆解了 Factory 的 Missions 系统——如何让多个 AI Agent 在长期任务（目标 30 天）中不漂移。核心设计：Orchestrator（规划+Validation Contract）+ Workers（实现）+ Validators（对抗性验证）。最长的 Mission 已经跑了 16 天。

三条线索汇聚到同一个结论。

执行已死，判断力永生

💡 Key Insight

软件工程的瓶颈已经不再是智能，而是人类注意力。

这是 Saito 那篇文章最让我震动的一句话。它和 Garry Tan 描述的现象完全一致：Garry 之所以能在 CEO 工作之余用 AI 建一整套 personal AI 系统，不是因为他突然变聪明了，而是因为他把执行外包给了 AI，把自己的注意力释放出来做判断。

执行不再是稀缺品。 模型已经越来越聪明，真正的瓶颈是人类的注意力——你能定义多少方向？设定多少边界？验证多少结果？

这意味着人类的比较优势从”执行”转向”定义方向”。这个转移不是预测，是正在发生的事。

维度	执行者时代	判断力时代
核心资产	技术栈知识	方向感和品味
时间分配	80% 执行，20% 规划	20% 执行，80% 规划
竞争力	代码写得多快多好	问题定义得多准确
风险	被 AI 替代	方向错误

约束即注意力分配

💡 Key Insight

Karpathy 的 4 条规则之所以有效，不是因为它们聪明，而是因为它们堵住了特定类型的浪费——静默假设、过度工程、旁路损害。规则是排水沟。

Mnimiy 的实验最有趣的数据是：4→12 条规则，合规率几乎不降（78%→76%），但错误率又降了 8 个百分点。这说明”覆盖更多失败模式”和”占用更多注意力预算”不是零和——前提是规则之间不重叠、不竞争。

超过 14 条规则为什么崩？因为超过 14 条，Claude 开始把规则当作一个整体来 pattern-match，而不是分别处理每条。这是注意力带宽的物理限制。200 行的天花板不是任意设定，是真实认知成本的折射。

“Be careful”/”think hard”/”really focus” 这种纯噪音的合规率约 30%，因为不可测试。好的规则必须是可以验证的——不是告诉 AI”要小心”，而是告诉它”在什么情况下做什么”。

规则类型	效果	原因
“be careful”	~30% 合规	不可测试
4 条核心规则	~78% 合规	堵住主要浪费类型
12 条扩展规则	~76% 合规	覆盖更多漏洞

架构即自我纠正系统

💡 Key Insight

Missions 的设计最让我有感触的一点是：它默认 Agent 会犯错，然后用结构化机制而不是更聪明的模型来纠错。这是一种工程上的谦逊。

Saito 描述的 Missions 系统，本质上是一个自我纠正系统。三个核心设计：

Validation Contract 在规划阶段提前写好。 测试不是迁就实现，而是实现必须满足预定义的验收标准。这本质上是把”什么是成功”从实现中解耦出来——对抗实现者自我辩护的本能。

结构化 Handoff。 每个 Worker 完成特性后，必须填写交接单：完成了什么、留下了什么、运行过哪些命令、exit code 是多少。这解决的是”系统不能靠记忆运行，必须靠结构化记录运行”的问题。

自愈机制。 里程碑边界会检查所有 handoff，发现未解决问题就自动创建 Follow-up Features 把任务拉回正轨。不是指望 Agent 永远不犯错，而是默认 Agent 会犯错，然后让错误及时暴露出来。

最长的 Mission 跑了 16 天，目标是 30 天。这个数字本身说明：长期 Agent 系统的核心不是更大的 prompt，而是更强的交接和验证纪律。

技术债务与认知复利

Garry Tan 的 skillify 循环是这三条线索中最接近”个人认知复利”的：

做一件事 → 提取模式 → 写成可复用技能 → 技能又生成新技能

这和我在写作中反复触及的思路一致——你以为你在记录想法，实际上你在构建一个能产生新想法的系统。

他用这个系统读了 20+ 本书，每本书的”镜像”都比前一个更丰富，因为大脑（brain）在持续迭代。第二十本镜像知道前十九本讲了什么。这就是复利的本质：每一次积累都会让下一次积累变得更容易。

“模型只是引擎”——这和”编程语言是思想的载体”异曲同工。真正有价值的不是引擎本身，而是围绕它构建的判断力和积累。

维度	传统开发	Skillify 模式
积累形式	技术文档/注释	可执行技能
复用方式	复制粘贴	调用
迭代成本	高（需要人工同步）	低（技能自我进化）
复利	无	有

结论：你的比较优势在哪里

三篇文章从不同角度讲了同一件事：

Garry Tan 说的是个人层面的认知复利：把判断力外化成可积累的系统。Mnimiy 说的是约束层面的注意力分配：给 AI 规则不是限制它，是帮它集中注意力。Saito 这篇说的是组织层面的任务分解：如何让多个 AI Agent 在长期任务中不漂移。

三者都指向人类的最终价值所在：不是执行，而是判断。

如果你现在还在花 80% 的时间写代码，20% 的时间思考方向——你需要重新校准。AI 会写代码，而且会越来越会。你的价值在于：定义问题、设定边界、验证结果、迭代方向。

这不是预测。这是现在正在发生的事。

金句

Writing is thinking，handoff documentation is thinking too。真正的工具不是帮你完成工作，而是帮你建立复利。