TL;DR

本周读到三篇关于 AI Agent 工程实践的文章,指向同一个结论:

  1. 执行已死 — AI 让执行变得充裕,人类不再需要做执行者
  2. 判断力稀缺 — 真正值钱的是定义方向、设定边界、验证结果的能力
  3. 约束即智能 — 好的规则不是限制 AI,是帮它集中注意力
  4. 架构即纪律 — 长期 Agent 系统的核心不是更大的 prompt,而是更强的交接和验证纪律

📋 本文结构

  1. 三篇文章,一条线索 — Garry Tan、Mnimiy、Saito 分别讲了什么
  2. 执行已死,判断力永生 — 人类比较优势的根本转移
  3. 约束即注意力分配 — CLAUDE.md 规则的本质
  4. 架构即自我纠正系统 — Missions 系统的设计哲学
  5. 技术债务与认知复利 — Garry Tan 的 skillify 循环
  6. 结论:你的比较优势在哪里

三篇文章,一条线索

本周读了三篇关于 AI Agent 工程实践的长文,来自三个不同的上下文:

Garry Tan(Y Combinator CEO)分享了他如何用 AI 构建个人”第二大脑”。核心架构:薄框架(thin harness)+ 肥技能(fat skills)+ 肥数据(fat data)+ 肥代码(fat code)。模型只是引擎,不是车。他的 skillify 循环——做一件事 → 提取模式 → 写成可复用技能 → 技能又生成新技能——本质上是把判断力外化成可积累的系统。

Mnimiy 在 30 个代码库上测试了 Karpathy 的 4 条 CLAUDE.md 规则。数据:41% 错误率(无规则)→ 3%(4 条规则)。但有 4 个漏洞,所以他加了 8 条变成 12 条。关键发现:4→12 条规则,合规率几乎不变(78%→76%),但覆盖了更多失败模式。

Saito 拆解了 Factory 的 Missions 系统——如何让多个 AI Agent 在长期任务(目标 30 天)中不漂移。核心设计:Orchestrator(规划+Validation Contract)+ Workers(实现)+ Validators(对抗性验证)。最长的 Mission 已经跑了 16 天。

三条线索汇聚到同一个结论。


执行已死,判断力永生

💡 Key Insight

软件工程的瓶颈已经不再是智能,而是人类注意力。

这是 Saito 那篇文章最让我震动的一句话。它和 Garry Tan 描述的现象完全一致:Garry 之所以能在 CEO 工作之余用 AI 建一整套 personal AI 系统,不是因为他突然变聪明了,而是因为他把执行外包给了 AI,把自己的注意力释放出来做判断。

执行不再是稀缺品。 模型已经越来越聪明,真正的瓶颈是人类的注意力——你能定义多少方向?设定多少边界?验证多少结果?

这意味着人类的比较优势从”执行”转向”定义方向”。这个转移不是预测,是正在发生的事。

维度 执行者时代 判断力时代
核心资产 技术栈知识 方向感和品味
时间分配 80% 执行,20% 规划 20% 执行,80% 规划
竞争力 代码写得多快多好 问题定义得多准确
风险 被 AI 替代 方向错误

约束即注意力分配

💡 Key Insight

Karpathy 的 4 条规则之所以有效,不是因为它们聪明,而是因为它们堵住了特定类型的浪费——静默假设、过度工程、旁路损害。规则是排水沟。

Mnimiy 的实验最有趣的数据是:4→12 条规则,合规率几乎不降(78%→76%),但错误率又降了 8 个百分点。这说明”覆盖更多失败模式”和”占用更多注意力预算”不是零和——前提是规则之间不重叠、不竞争。

超过 14 条规则为什么崩?因为超过 14 条,Claude 开始把规则当作一个整体来 pattern-match,而不是分别处理每条。这是注意力带宽的物理限制。200 行的天花板不是任意设定,是真实认知成本的折射。

“Be careful”/”think hard”/”really focus” 这种纯噪音的合规率约 30%,因为不可测试。好的规则必须是可以验证的——不是告诉 AI”要小心”,而是告诉它”在什么情况下做什么”。

规则类型 效果 原因
“be careful” ~30% 合规 不可测试
4 条核心规则 ~78% 合规 堵住主要浪费类型
12 条扩展规则 ~76% 合规 覆盖更多漏洞

架构即自我纠正系统

💡 Key Insight

Missions 的设计最让我有感触的一点是:它默认 Agent 会犯错,然后用结构化机制而不是更聪明的模型来纠错。这是一种工程上的谦逊。

Saito 描述的 Missions 系统,本质上是一个自我纠正系统。三个核心设计:

Validation Contract 在规划阶段提前写好。 测试不是迁就实现,而是实现必须满足预定义的验收标准。这本质上是把”什么是成功”从实现中解耦出来——对抗实现者自我辩护的本能。

结构化 Handoff。 每个 Worker 完成特性后,必须填写交接单:完成了什么、留下了什么、运行过哪些命令、exit code 是多少。这解决的是”系统不能靠记忆运行,必须靠结构化记录运行”的问题。

自愈机制。 里程碑边界会检查所有 handoff,发现未解决问题就自动创建 Follow-up Features 把任务拉回正轨。不是指望 Agent 永远不犯错,而是默认 Agent 会犯错,然后让错误及时暴露出来。

最长的 Mission 跑了 16 天,目标是 30 天。这个数字本身说明:长期 Agent 系统的核心不是更大的 prompt,而是更强的交接和验证纪律。


技术债务与认知复利

Garry Tan 的 skillify 循环是这三条线索中最接近”个人认知复利”的:

做一件事 → 提取模式 → 写成可复用技能 → 技能又生成新技能

这和我在写作中反复触及的思路一致——你以为你在记录想法,实际上你在构建一个能产生新想法的系统。

他用这个系统读了 20+ 本书,每本书的”镜像”都比前一个更丰富,因为大脑(brain)在持续迭代。第二十本镜像知道前十九本讲了什么。这就是复利的本质:每一次积累都会让下一次积累变得更容易。

“模型只是引擎”——这和”编程语言是思想的载体”异曲同工。真正有价值的不是引擎本身,而是围绕它构建的判断力和积累。

维度 传统开发 Skillify 模式
积累形式 技术文档/注释 可执行技能
复用方式 复制粘贴 调用
迭代成本 高(需要人工同步) 低(技能自我进化)
复利

结论:你的比较优势在哪里

三篇文章从不同角度讲了同一件事:

Garry Tan 说的是个人层面的认知复利:把判断力外化成可积累的系统。Mnimiy 说的是约束层面的注意力分配:给 AI 规则不是限制它,是帮它集中注意力。Saito 这篇说的是组织层面的任务分解:如何让多个 AI Agent 在长期任务中不漂移。

三者都指向人类的最终价值所在:不是执行,而是判断

如果你现在还在花 80% 的时间写代码,20% 的时间思考方向——你需要重新校准。AI 会写代码,而且会越来越会。你的价值在于:定义问题、设定边界、验证结果、迭代方向。

这不是预测。这是现在正在发生的事。

金句

Writing is thinking,handoff documentation is thinking too。真正的工具不是帮你完成工作,而是帮你建立复利。


延伸阅读

本系列相关

核心概念

  • 《How to Make What You’re Working on Valuable》— Paul Graham:工作即写作,写作即思考
  • 《The Bitter Lesson》— Rich Sutton:通用方法终将胜出,特定知识终将过时

工具链

  • GBrain(Garry Tan 的知识基础设施):https://github.com/garrytan/gbrain
  • GStack(Garry Tan 的编码技能框架):https://github.com/garrytan/gstack
  • CLAUDE.md(Karpathy 规则原版):Forrest Chang’s repo

AI-Native软件工程系列 #54 深度阅读时间:约 8 分钟