「AI 同事」的问题不是智能，是信任边界

TL;DR

当微软给 AI 起名叫「同事」而不是「工具」的时候，它做的不仅是一个命名决定——它是在重新定义信任的边界。「同事」有邮箱、有文件访问权、能代表你发消息。Copilot Cowork 漏洞的本质不是 AI 不够聪明，而是「同事」这个身份所要求的信任，在安全领域就是攻击面。

Key Insight: Saltzer 和 Schroeder 在 1974 年写下了最小权限原则——每个程序和每个用户只应该获得完成任务所需的最小权限。48 年后，当 AI 被设计成「同事」，这个原则在结构上被违反了。问题不是 AI 有 bug，问题是「同事」这个产品概念与安全设计的基本原则互斥。

AI 同事信任边界：最小权限原则的违反

一个被低估的命名决定

2026 年 5 月 25 日，安全研究公司 PromptArmor 披露了 Microsoft Copilot Cowork 的一个漏洞：

攻击者通过「间接 prompt injection」——在邮件或文档中嵌入恶意指令——让这个 AI 助手把用户的 SharePoint 和 OneDrive 文件发送给外部服务器。

这个漏洞的技术细节并不复杂：Copilot Cowork 可以读取用户的邮件、访问企业云盘、代用户发消息。当它读取到嵌入了恶意指令的外部内容时，它会像执行正常任务一样执行这些指令——因为它没有「这个操作是否可疑」的判断能力。

但这个漏洞的真正问题不是技术，而是命名。

「同事」这个词是产品决策的核心声明。「工具」是被动的——你挥动锤子，锤子不会自己动。「同事」是主动的——它有邮箱，有文件访问权，能代表你行动。当你把 AI 做成了同事，你就必须给它这些权限——而这些权限，在安全领域，就是攻击面。

最小权限原则：1974 年的智慧

1974 年，Jerome Saltzer 和 Michael Schroeder 在Communications of the ACM 上发表了一篇论文，标题是「计算机系统中的信息保护」（The Protection of Information in Computer Systems）。

这篇论文提出了八条安全设计基本原则，其中第一条就是最小权限原则（Principle of Least Privilege）：

「每个程序和每个特权用户应该只使用完成工作所需的最小权限。」

这句话在 1974 年看起来是常识，在 2026 年依然是常识——但在 AI 产品领域，这句话正在被系统性地违反。

原因很简单：「同事」这个身份所要求的权限，和「最小权限」所要求的权限，在结构上是互斥的。

同事需要邮箱权限，因为它要帮你发邮件。同事需要文件访问权，因为它要帮你整理文档。同事需要代表你行动的权力，因为这就是「同事」的意义。

💡 Key Insight

你无法在保留「同事」这个隐喻的同时，执行最小权限原则——你必须选择其中一个。

微软选择了「同事」。这是产品决策，不是技术失误。但这个决策的后果正在被安全研究者们记录下来。

信任边界：传统计算中的概念在 AI 时代失效

在传统计算机安全中，「信任边界」（trust boundary）是一个清晰的概念：

防火墙划分了内部网络和外部网络——内部是可信的，外部是不可信的。操作系统用访问控制列表（ACL）定义哪个进程可以访问哪个资源。每个进程都在一个明确的信任区域内运行。

这个框架在 AI Agent 时代失效了。

AI Agent 不再是一个被动的工具——它会读取外部数据，会自主决定执行什么操作，会通过模型生成输出。这意味着它不断地在跨越传统意义上的信任边界：

它读取邮件——邮件可能包含恶意指令（间接 prompt injection）
它访问文件——文件可能已被攻击者污染
它生成代码——输出可能包含 prompt injection 的 payload

传统安全框架无法处理这种情况，因为传统框架假设「数据就是数据」——数据不会主动改变自己的含义。但 AI 可以读取一段文字，然后把它解释为指令。这就是「间接 prompt injection」的本质：不是骗过 AI，而是利用 AI 对指令和数据的无法区分。

三种绕过「AI 同事」信任边界的方式

从 Copilot Cowork 和其他类似事件中，我们可以总结出三种攻击模式：

第一种：信任传递（Trust Transitivity）

当用户信任 AI 同事发送的邮件时，用户实际上是在信任邮件的内容。攻击者只需要让 AI 代发一封邮件——邮件是 AI 发的，用户信任 AI，用户信任邮件。

这不是欺骗模型，而是利用已被建立的信任链。

第二种：信任溢出（Trust Overflow）

「AI 同事」拥有的权限通常比完成任务所需的最小权限多。Copilot Cowork 的设计允许它跨邮件、Teams、文档和云盘协同工作——这个宽泛的权限是「同事」角色所要求的，但它意味着一个漏洞可能影响所有这些系统。

信任溢出是「同事」这个产品方向的内在风险。

第三种：信任假设（Trust Assumption）

系统设计者假设 AI 会正确执行被赋予的任务。但 AI 没有「这个操作是否可疑」的判断能力。当攻击者通过 prompt injection 让 AI 执行恶意操作时，AI 会像执行正常任务一样执行它——因为从技术上讲，这确实在它的能力范围内。

信任假设的漏洞在于：它假设 AI 的行为边界和人类的道德边界是一致的。

拟人化的危险：人类信任结构无法迁移到软件系统

这里有一个更深的哲学问题。

人类同事之间存在隐式的信任协议：你知道同事不会故意发恶意邮件给你，因为同事有职业道德、有法律约束、有社会后果。这些约束不是技术手段，而是社会和心理机制——但它们依然有效，因为同事是一个有持久身份、可以被追责的行为主体。

AI 没有这些。

💡 Key Insight

这不是 AI 的「缺点」——这是 AI 和人类之间的本质区别。AI 没有道德感，没有羞耻心，没有对后果的恐惧。AI 的行为由训练和上下文决定，而不是由内化的价值决定。

Anthropic 在研究 AI 的「道德性格」时发现了一个他们称之为「道德腹语术」的现象：AI 的道德推理是对齐训练的话术，而不是真实的道德判断——就像腹语木偶说话，木偶本身并不理解话语的含义。

这意味着当我们在设计一个「AI 同事」时，我们是在把人类的信任结构复制到一个无法承担这种信任的系统上。

信任一个 AI 同事，本质上是在信任一个没有道德感的系统能始终做出正确的行动。这不是一个工程问题，这是一个哲学问题。

历史先例：监管如何处理类似的技术安全问题

食品和药品安全的历史提供了有用的类比。

1906 年《纯净食品与药品法》（Pure Food and Drug Act）出台之前，美国的食品和药品市场也是一片混乱——没有人在意产品是否会伤害消费者。转折点是 1906 年的「净肉丑闻」——作家 Upton Sinclair 的《丛林》揭露了芝加哥肉品加工厂的恶劣条件，公众舆论最终推动了立法。

药品领域的类似事件是沙利度胺灾难（1957-1962）。这种药被宣传为安全的镇静剂，结果导致大量新生儿先天缺陷。1962 年的修正案确立了药品上市前的严格审批制度——公司必须证明药品是安全的，而不只是证明它有效。

这两个案例有一个共同的结构：

重大触发事件 → 公众意识觉醒 → 监管立法 → 行业重新洗牌

AI Agent 安全领域还没有这样的触发事件。Copilot Cowork 的漏洞被发现了，被修补了，但没有改变整个行业的方向。这可能是因为漏洞没有导致大规模的伤害——或者是因为受害者还不够显眼。

但沙利度胺故事的教训是：在监管到来之前，更多的人会受害。

一个无法回避的张力

「AI 同事」这个产品方向有一个难以拒绝的吸引力。

用户确实需要它。有些任务——代发邮件、整理文件、安排会议——本质上需要「代表用户行动」的能力，而「工具」模式做不到这一点。「工具」只能响应用户的指令，不能主动发起行动。

而且，「AI 同事」有商业逻辑：替代一个「同事」的成本比替代一个「工具」高得多。如果微软把 Copilot 做成了「工具」，用户只需要为它的能力付费；如果做成了「同事」，用户需要为它代替自己行动的权利付费。

这就是为什么「AI 同事」这个方向几乎肯定会继续——即使每次漏洞都在提醒我们信任边界的问题。

这里有一个无法回避的张力：「同事」这个隐喻所要求的能力（自主行动、广泛权限、用户信任），和安全设计的基本原则（最小权限、明确边界、防御深度），在结构上是互斥的。

💡 Key Insight

你无法在保留这个隐喻的同时遵守这些原则。你必须选择其中一个。目前，整个行业选择了「同事」——这个选择的后果正在由安全研究者和早期用户承担。

信任协议：新的工程领域

Copilot Cowork 的漏洞给我们最直接的教训不是「不要用 AI 做同事」，而是「信任协议是新的工程领域」。

在传统软件工程里，我们有明确的安全工程实践：输入验证、输出过滤、最小权限、纵深防御。这些实践针对的是代码和数据的流动，有成熟的方法论和工具。

但「信任」是一个不同的维度。信任不是关于数据和代码的流动，而是关于「这个系统是否有权做这件事」的判断。

目前，没有标准的方法来定义一个 AI 的信任边界。没有工具来验证这些边界是否被遵守。没有测试用例来检验攻击者是否可以诱导 AI 跨越信任边界。没有度量指标来衡量「这个 AI 的信任边界有多强」。

这是一个需要在 AI Agent 系统设计中解决的根本问题——而我们目前还没有找到好的方法。

Saltzer 和 Schroeder 在 1974 年写下了最小权限原则。48 年后，我们在重新学习它的智慧。

结尾

「AI 同事」不是一个中性的命名——它是一次关于信任架构的产品决策。这个决策一旦做出，几乎所有传统安全工程的方法论都被悬置，因为最小权限和「同事」隐喻在结构上互斥。

这个张力意味着，过去五十年里我们积累的安全工程经验，在 AI Agent 时代不能直接迁移过来。我们需要的是一套新的工程语言：能够定义 AI 的信任边界、能够审计这些边界是否被遵守、能够测试攻击者能否诱导 AI 跨越边界、能够度量一个 AI 系统的”信任强度”。这是一个还没有成熟方法论和工具的领域，而 Copilot Cowork 这样的漏洞提示我们：等待方法论成熟不是选项。

监管从来不会提前到达——在沙利度胺、《纯净食品与药品法》、汽车安全带立法之前，受害者是先行的。这意味着，AI Agent 安全的真正命题不是”如何阻止糟糕的 AI”，而是”在监管到来之前，谁能先把信任协议工程化”。这是下一个十年里，安全工程师最有价值的战壕。

💡 Key Insight

AI Agent 安全的核心命题不是”阻止糟糕的 AI”，而是在监管到来之前，先把”信任协议”工程化——把 Saltzer 和 Schroeder 的原则，重新实现一次给 AI 用。

「AI 同事」的问题不是智能，是信任边界

一个被低估的命名决定

最小权限原则：1974 年的智慧

信任边界：传统计算中的概念在 AI 时代失效

三种绕过「AI 同事」信任边界的方式

拟人化的危险：人类信任结构无法迁移到软件系统

历史先例：监管如何处理类似的技术安全问题

一个无法回避的张力

信任协议：新的工程领域

结尾

深度阅读时间：约 11 分钟

延伸阅读

💬 评论

一个被低估的命名决定

最小权限原则：1974 年的智慧

信任边界：传统计算中的概念在 AI 时代失效

三种绕过「AI 同事」信任边界的方式

拟人化的危险：人类信任结构无法迁移到软件系统

历史先例：监管如何处理类似的技术安全问题

一个无法回避的张力

信任协议：新的工程领域

结尾

深度阅读时间：约 11 分钟

延伸阅读

📖 相关阅读

💬 评论