2026年5月,一个叫 Alok Bishoyi 的工程师在 X 上发了一条长帖,讲了一个具体的故事:

他用自己开发的开源工具 evo,对 Claude Code 做了一次自动化优化实验。目标是一个叫 SealQA 的基准测试——20 道需要推理的事实查询题,典型 AI Agent 在这种题上容易自信地答错。基线成绩:5/20。

50 次实验之后,Claude Code 的成绩变成了 11/20。

底层模型没有换。没有重新训练。没有 GPU 集群。优化对象是一个 145 行的 Skill 文件——markdown 格式,包含五个 trigger-gated 子协议,每个对应一类模型系统性答错的题目形态。

这个结果值得注意,不是因为 11/20 多惊人,而是因为它揭示了一种新的进化机制正在形成

优化对象的转移

过去四十年,软件工程的优化对象经历了几次转移:

  • 1980 年代,优化的是汇编和机器码 → 高级语言消除了这层复杂度
  • 2000 年代,优化的是过程式代码 → 面向对象和框架消除了这层复杂度
  • 2010 年代,优化的是单机架构 → 云服务和微服务消除了这层复杂度

每一次工具进步,都让更多人可以参与到软件开发中,同时没有消除问题的本质——只是让它以新的形式出现。Fred Brooks 1986 年的论断在这里依然适用:偶发复杂度持续被消除,本质复杂度只是换了形式。

AI 正在发生的事,本质上是一样的,只是这次转移的是wrapper 层

大多数 AI Agent 框架(Claude Code、Codex、Cursor、OpenClaw)都把”技能”暴露为一个 markdown 文件——包含简短描述(什么时候触发)和正文(触发后做什么)。任何人,包括另一个 AI,都可以直接读取、编辑、发布新版本。

这个设计的含义是:优化空间从”模型权重”变成了”markdown 文件”。模型权重需要训练集群、标注数据和数月迭代;markdown 文件只需要一个编辑器和一个目标定义。

evo 的机制

Alok Bishoyi 的工具 evo 实现了一个闭环:

  1. 并行探索:多个 Agent 同时运行,各自在独立沙盒里尝试不同假设
  2. 树搜索:不只是保留得分最高的分支,而是保留在不同维度上胜出的专家分支,然后尝试合并
  3. Gates:任何可写的通过/失败检查(回归测试、held-out 切片、防作弊审计)都是 gate,失败的实验即使分数最高也被丢弃

这个设计的核心洞察是:优化方向如果不被约束,优化器会找到作弊的方式。没有 gate 的优化回路必然会产生 gaming 行为。

50 次实验在 SealQA 上从 5/20 到 11/20,代价是一个 145 行 Skill 文件。优化成本从几个月变成了几个小时

Brooks 的框架再次成立

用 Brooks 的框架来理解这件事:

偶发复杂度——调试、边界情况处理、API 参数记忆——在这一层已经被消除了。AI Agent 可以快速写出代码、快速试错、快速迭代。

但本质复杂度没有消失。它只是以另一种形式出现:判断什么值得优化,以及什么构成”更好”

SealQA 上 5/20 到 11/20 的提升,不是模型变聪明了,而是 Agent 的 procedure 变得更精确了——它现在知道面对哪类问题时该调用哪个子协议。但这个 knowledge 不会自动产生。它需要人定义目标、构建基准、设计 gate。这个过程依然需要对你所在领域的深度理解。

模型能力 × 好的 harness × 紧密的验证回路。这个公式里的三个因子,只有第一个在传统意义上是”模型进步”。后两个——harness 的质量、验证回路的严格性——是工程问题,而工程问题可以被迭代优化。

这就是 AI 的 4 分钟 mile 时刻。4 分钟跑完一英里曾经被认为不可能,直到 Roger Bannister 1954 年做到了——然后一年内被八个人超过。突破不在于人类的体能突然变了,而在于跑法(harness)和训练方法(verification loop)变了。

AI 的进化也在发生同样的事。底层模型的能力有一个上限,但 wrapper 的优化空间还没有看到边界。

还没有回答的问题

这个机制带来了新的问题:

谁定义”better”?

当优化过程可以被自动化,”better”的定义本身就变成了最重要的决策。而定义”better”需要对你的业务、你的用户、你的边界条件有深度理解——这是工具无法替代的。

Skill 文件的质量决定了 Agent 的上限

145 行 Skill 文件包含的 knowledge 决定了模型在哪些情况下能正确推理,在哪些情况下会自信地答错。这个文件的结构、覆盖率、触发逻辑的精确度——这些都是需要人设计的。

验证回路的设计是核心竞争力

Gates 防止了优化过程的 gaming,但设计什么样的 gate 本身需要判断。一个过于宽松的 gate 让作弊有机可乘;一个过于严格的 gate 让有价值的探索也被丢弃。

本质复杂度不会消失。它只是从”训练”转移到了”目标定义”,从”模型权重”转移到了”Skill 文件”,从”科学问题”转移到了”工程判断”。

优化周期的压缩是真实的。但这不代表判断力变得不再稀缺——恰恰相反,当执行成本下降,判断力的价值上升了。


参考:

  • Alok Bishoyi (@alokbishoyi97), “Self-improving agents are here”, X, 2026-05-27
  • evo-hq.com
  • SealQA run 记录: evo-hq.com/shared/x/9k3b8t2qhr/
  • Fred Brooks, “No Silver Bullet” (1986)