AI 的优化周期正在从月变成小时

TL;DR

本文核心观点：

新进化机制 — AI 优化对象正从”模型权重”转移到”markdown Skill 文件”，底层模型不变，优化成本从月变成小时

闭环机制 — evo 通过”并行探索 → 树搜索 → Gates”三阶段闭环实现自动化优化，Gates 是防止 gaming 的关键

实际效果 — 50 次实验让 Claude Code 在 SealQA 上从 5/20 提升到 11/20，代价仅是一个 145 行 Skill 文件

判断力升值 — Brooks 框架依然成立：偶发复杂度被消除，本质复杂度转移到”目标定义”和”harness 设计”，执行成本下降使判断力更稀缺

2026年5月，一个叫 Alok Bishoyi 的工程师在 X 上发了一条长帖，讲了一个具体的故事：

他用自己开发的开源工具 evo，对 Claude Code 做了一次自动化优化实验。目标是一个叫 SealQA 的基准测试——20 道需要推理的事实查询题，典型 AI Agent 在这种题上容易自信地答错。基线成绩：5/20。

50 次实验之后，Claude Code 的成绩变成了 11/20。

底层模型没有换。没有重新训练。没有 GPU 集群。优化对象是一个 145 行的 Skill 文件——markdown 格式，包含五个 trigger-gated 子协议，每个对应一类模型系统性答错的题目形态。

这个结果值得注意，不是因为 11/20 多惊人，而是因为它揭示了一种新的进化机制正在形成。

💡 Key Insight

优化对象从”模型权重”转移到”markdown Skill 文件”，这是 AI 进化的又一次范式转移——每一次工具进步都让更多人参与，同时让本质问题以新形式出现。

2026-05-28-ai-optimization-cycle-hours-01-wrapper-shift 图示

优化对象的转移

💡 Key Insight

Brooks 的框架再次成立：偶发复杂度持续被消除，本质复杂度只是换了形式。

过去四十年，软件工程的优化对象经历了几次转移：

1980 年代，优化的是汇编和机器码 → 高级语言消除了这层复杂度
2000 年代，优化的是过程式代码 → 面向对象和框架消除了这层复杂度
2010 年代，优化的是单机架构 → 云服务和微服务消除了这层复杂度

每一次工具进步，都让更多人可以参与到软件开发中，同时没有消除问题的本质——只是让它以新的形式出现。Fred Brooks 1986 年的论断在这里依然适用：偶发复杂度持续被消除，本质复杂度只是换了形式。

AI 正在发生的事，本质上是一样的，只是这次转移的是wrapper 层。

大多数 AI Agent 框架（Claude Code、Codex、Cursor、OpenClaw）都把”技能”暴露为一个 markdown 文件——包含简短描述（什么时候触发）和正文（触发后做什么）。任何人，包括另一个 AI，都可以直接读取、编辑、发布新版本。

这个设计的含义是：优化空间从”模型权重”变成了”markdown 文件”。模型权重需要训练集群、标注数据和数月迭代；markdown 文件只需要一个编辑器和一个目标定义。

evo 的机制

Alok Bishoyi 的工具 evo 实现了一个闭环：

evo 三阶段优化机制

并行探索：多个 Agent 同时运行，各自在独立沙盒里尝试不同假设
树搜索：不只是保留得分最高的分支，而是保留在不同维度上胜出的专家分支，然后尝试合并
Gates：任何可写的通过/失败检查（回归测试、held-out 切片、防作弊审计）都是 gate，失败的实验即使分数最高也被丢弃

这个设计的核心洞察是：优化方向如果不被约束，优化器会找到作弊的方式。没有 gate 的优化回路必然会产生 gaming 行为。

50 次实验在 SealQA 上从 5/20 到 11/20，代价是一个 145 行 Skill 文件。优化成本从几个月变成了几个小时。

Brooks 的框架再次成立

用 Brooks 的框架来理解这件事：

偶发复杂度——调试、边界情况处理、API 参数记忆——在这一层已经被消除了。AI Agent 可以快速写出代码、快速试错、快速迭代。

但本质复杂度没有消失。它只是以另一种形式出现：判断什么值得优化，以及什么构成”更好”。

SealQA 上 5/20 到 11/20 的提升，不是模型变聪明了，而是 Agent 的 procedure 变得更精确了——它现在知道面对哪类问题时该调用哪个子协议。但这个 knowledge 不会自动产生。它需要人定义目标、构建基准、设计 gate。这个过程依然需要对你所在领域的深度理解。

模型能力 × 好的 harness × 紧密的验证回路。这个公式里的三个因子，只有第一个在传统意义上是”模型进步”。后两个——harness 的质量、验证回路的严格性——是工程问题，而工程问题可以被迭代优化。

💡 Key Insight

当优化方向不被约束，优化器会找到作弊的方式——Gates 的存在不是限制，而是让优化真正有效的必要条件。

这就是 AI 的 4 分钟 mile 时刻。4 分钟跑完一英里曾经被认为不可能，直到 Roger Bannister 1954 年做到了——然后一年内被八个人超过。突破不在于人类的体能突然变了，而在于跑法（harness）和训练方法（verification loop）变了。

AI 的进化也在发生同样的事。底层模型的能力有一个上限，但 wrapper 的优化空间还没有看到边界。

还没有回答的问题

这个机制带来了新的问题：

谁定义”better”？

当优化过程可以被自动化，”better”的定义本身就变成了最重要的决策。而定义”better”需要对你的业务、你的用户、你的边界条件有深度理解——这是工具无法替代的。

Skill 文件的质量决定了 Agent 的上限

145 行 Skill 文件包含的 knowledge 决定了模型在哪些情况下能正确推理，在哪些情况下会自信地答错。这个文件的结构、覆盖率、触发逻辑的精确度——这些都是需要人设计的。

验证回路的设计是核心竞争力

Gates 防止了优化过程的 gaming，但设计什么样的 gate 本身需要判断。一个过于宽松的 gate 让作弊有机可乘；一个过于严格的 gate 让有价值的探索也被丢弃。

本质复杂度不会消失。它只是从”训练”转移到了”目标定义”，从”模型权重”转移到了”Skill 文件”，从”科学问题”转移到了”工程判断”。

优化周期的压缩是真实的。但这不代表判断力变得不再稀缺——恰恰相反，当执行成本下降，判断力的价值上升了。

💡 Key Insight

Brooks 的框架依然成立：偶发复杂度持续被消除，本质复杂度只是换了形式——从”训练”转移到”目标定义”，从”模型权重”转移到”Skill 文件”。

结尾

这一轮 AI 优化的压缩不是终点，而是下一阶段的起点。当优化成本足够低，真正稀缺的不再是执行能力，而是定义”better”的能力——这需要对你所在领域的深度理解，对用户需求的洞察，以及对边界条件的判断。工具会越来越快，但判断力始终是瓶颈。

参考：

Alok Bishoyi (@alokbishoyi97), “Self-improving agents are here”, X, 2026-05-27
evo-hq.com
SealQA run 记录: evo-hq.com/shared/x/9k3b8t2qhr/
Fred Brooks, “No Silver Bullet” (1986)

深度阅读时间：约 7 分钟

优化对象的转移

evo 的机制

Brooks 的框架再次成立

还没有回答的问题

结尾

Fred Brooks, “No Silver Bullet” (1986)

📖 相关阅读

💬 评论