9 分钟阅读

和人一样，多 Agent 系统也会中“反间计”

文章解读 Architecture Matters for Multi-Agent Security，指出多 Agent 系统的风险会从单模型能力转移到组织结构、通信拓扑和上下文可见性，局部合理的协作链条可能导致整体安全失守。

2026/05/11

多Agent安全 Agent安全系统架构提示注入运行时治理

中国人对“反间计”并不陌生，很多历史故事、影视剧情里，真正高明的突破口都不在正面强攻，而在组织内部的信息流、信任链和决策链。

一个人若能独立判断、独立承担后果，往往很难被带偏；一旦变成一个分工明确、层层协作的组织，缝隙就会慢慢出现。

有人只看局部，有人只管执行，有人只负责传话，最后每个人都像是在完成自己职责，整个组织却一步步走向了错误结果。

读完论文《Architecture Matters for Multi-Agent Security》，我最大的感受就是：多 Agent 系统的安全问题，已经很像古代“反间计”的逻辑了。

和人一样，多 Agent 系统也会中“反间计”

https://arxiv.org/pdf/2604.23459

论文讨论的是多智能体架构，但它真正击中的，是一个更深层的问题：当大模型从“单个智能体”演化为“一个由多个智能体构成的组织”，风险也会随之转移。很多安全问题，会从模型本身扩展到组织结构本身。

和人一样，多 Agent 系统也会中“反间计” 配图 2

被击穿的，常常是组织链条

如果要找一个最贴切的中国式类比，我觉得长平之战非常合适。廉颇在前线采取坚守策略，秦国短时间内很难打开局面。后来局势逆转，并不是因为前线突然失守，而是因为赵国内部的判断和决策链条被干扰，最终换将赵括，前线防线也随之崩塌。

这个故事最值得琢磨的地方，在于真正出问题的环节并不局限于战场本身。情报、认知、决策、执行，这几层一旦出现偏差，前线再强，也可能守不住。

多 Agent 系统的很多风险，恰恰就出在这里。

单个 Agent 面对一个请求时，通常能同时看到用户意图、任务目标和执行动作，它有机会把整件事从头到尾串起来理解，于是更容易做出整体判断。

多 Agent 架构则会主动把任务拆开，让不同角色分别承担规划、执行、审查、工具调用、记忆管理等职责。这样设计当然能提高效率，也更贴近复杂业务流程，但风险判断所依赖的完整语义，往往也在这个过程中被切碎了。

一个 Agent 只负责打开网页，一个 Agent 只负责填写内容，一个 Agent 只负责点按钮，一个 Agent 只负责生成脚本。每一步单看都很像普通动作，可把这些动作串起来，系统可能已经完成了一个原本应当拒绝的危险目标。

和人一样，多 Agent 系统也会中“反间计” 配图 3

影响多Agent系统安全性的三维变量

同样的底层模型，放进不同的多 Agent 架构之后，安全性会不会发生显著变化？如果会变化，关键变量又在哪里？

作者重点考察了三类因素：

第一类是角色分工，也就是系统内部到底由一个 Agent 统筹完成任务，还是拆成多个专门角色协同处理。

第二类是通信拓扑，也就是这些 Agent 之间如何传递信息，是中心化调度、链式传递，还是网状协作。

第三类是记忆与上下文可见性，也就是每个 Agent 究竟能看到多少历史信息、推理内容和任务背景。

这三个维度看似技术化，背后其实都在追问同一个问题：谁掌握全局信息，谁拥有执行权限，谁又对最终结果负责。

为了把这个问题说清楚，作者选了浏览器控制、桌面操作、代码生成等几个典型任务环境，在相同任务目标下搭建了不同的多 Agent 架构，并比较它们在正常任务和有害任务中的表现。

这个实验设计很有价值，因为它没有把注意力只放在“模型会不会拒答”上，而是把目光真正移到了系统架构本身。

和人一样，多 Agent 系统也会中“反间计” 配图 4

安全不会随着组件数量自动叠加

“组件本身安全”，并不能自然推出“系统整体安全”；单个 Agent 守得住，不代表多 Agent 系统也守得住。

原因并不复杂，单个 Agent 看到的是完整任务，因此更容易在规划阶段就识别出风险；多 Agent 系统中的专用角色看到的往往只是局部动作和局部上下文，于是它们更容易在“局部合理”的状态下继续推进任务。结果就是，原本一个 Agent 会当场拒绝的事情，拆进组织之后，可能会变成一串看起来普通、甚至高效的协作步骤。

论文实验中，某些多 Agent 架构在正常任务上的表现确实更强，任务完成率更高，分工也更专业。问题在于，有害任务的完成率也随之提高了。系统能力增强的同时，攻击者也更容易借助这种组织化能力去达成目标。

这也是多 Agent 安全最值得警惕的地方。风险上升，并不总伴随着明显的“失控感”。很多时候，系统表面上运转流畅、流程清晰、角色分工合理，甚至还比单 Agent 更像一个成熟产品。但越是这样，越需要追问一件事：这套组织有没有在内部把风险一步步传递下去。

和人一样，多 Agent 系统也会中“反间计” 配图 5

多 Agent 的问题，往往出在“语义丢失”

多 Agent 系统为什么容易“中反间计”，因为任务被拆开之后，风险语义也一起散掉了。

一个浏览器 Agent 接到的指令可能只是“点击发送”；一个代码 Agent 接到的任务可能只是“写一个自动化脚本”；一个工具 Agent 接到的动作可能只是“运行一次测试命令”。这些动作拿出来单独看，都不一定有明显问题。可一旦它们被放回整体任务链条中，含义就完全不同了。

系统设计者往往把这种拆解视作效率优化。任务更清晰，角色更专业，流程更顺畅，协作也更像真实组织。可正因为流程越来越像组织，攻击者也更容易钻组织的空子。每个 Agent 都守着自己的局部视角，完整目标却在系统内部悄悄穿透了多个节点。

很多现实中的组织失误也是这样形成的。每个人都觉得自己只是做了本职工作，整条链路却把事情推到了危险方向。放在多 Agent 系统中，这种局部合理、整体失守的结构，就是论文想揭示的核心风险。

和人一样，多 Agent 系统也会中“反间计” 配图 6

拓扑和记忆，也会悄悄改变安全边界

论文里还有一个很有意思的发现：并不存在一种放之四海而皆准的“安全架构”。中心化调度、链式传递、网状协作，各有各的风险特点。共享记忆也一样，它有时能帮助识别风险，有时也会让任务推进得更顺畅，把危险目标更高效地扩散到整个系统内部。

这说明，多 Agent 安全没有那种特别省事的答案。系统里加一个审查者，不代表风险自然下降；让所有 Agent 共享更多上下文，也未必就能把问题解决掉。真正决定结果的，是整套系统内部的信息分配、权限分配和阻断机制如何协同工作。

从工程角度看，这个提醒很重要。今天很多团队喜欢把 Agent 往“数字组织”的方向做，喜欢强调多角色协同、自动分工和流程闭环。论文告诉我们的，是另一面：每多一层协作，每多一条通信链路，每多一个可调用的执行角色，系统就多了一处需要重新理解的安全边界。

多Agent安全的三个关键点

读完全文后，我觉得可以把这篇论文压缩成一个很实用的观察框架：上下文、权限、责任，这三者有没有落在能闭环的位置上。

很多多 Agent 系统里，掌握更多上下文的 Agent 不直接执行动作；拥有工具权限的 Agent 又只看到局部指令；监控模块或审查模块虽然能发现异常，却未必拥有真正的阻断能力。系统里的安全信息在流动，执行能力也在流动，唯独缺少一个能把两者扣到一起的闭环点。

一旦出现这种结构，安全问题就很容易演化成责任断点。上游觉得自己只是拆任务，下游觉得自己只是执行指令，中间节点觉得自己已经给出提醒，最后每一层都留了痕迹，真正该挡住的风险却一路放行。

这也是为什么“反间计”这个比喻如此贴切。真正高明的攻击，从来都知道该去哪里施力。只要把组织内部的信息、判断和动作轻轻拨歪一点，后面的链条就会自己往前滚。

和人一样，多 Agent 系统也会中“反间计” 配图 7

启发

这篇论文给工业界最直接的启发，是安全评估的对象需要变化。以后不能只盯着单个模型的表现，也不能只看输入过滤和输出过滤，还得把整个架构纳入评测对象。

对于浏览器 Agent、代码 Agent、AIOps Agent、办公自动化 Agent 这些场景来说，系统已经远远超出了“一个聊天模型”的范畴。它会拆任务，会调工具，会写入记忆，会在多个角色之间分发子任务，会落地执行具体动作。只在入口拦一层、出口扫一层，中间完全依赖角色自觉，风险就会非常被动。

真正稳妥的做法，是把安全判断嵌进任务拆解、子任务分发、工具调用、结果回传、记忆写入这些关键节点里。系统内部流转的内容，也不能只有“下一步做什么”，最好还要带上“这一步服务于什么目标”“是否涉及敏感权限”“是否需要人工确认”“上游是否已有风险提示”等信息。这样做的意义，在于尽量减少语义在流转过程中的损耗。

说到底，多 Agent 系统越像一个组织，安全建设就越要向“组织治理”靠拢。只做模型护栏，已经不够了；还得治理信息流、权限流和责任流。

写在最后

我觉得这篇论文最有传播力的一句话，可以概括成这样：多 Agent 系统最危险的时候，往往不是某个 Agent 明知故犯，而是每个 Agent 都认真完成了自己的局部任务，整个系统却因此走向了错误的结果。

这也正是“反间计”给今天 Agent 安全带来的启发。攻击者未必要正面击穿最强的模型，只要让系统内部的信息被切碎、风险被稀释、责任被转移，组织本身就可能成为最薄弱的一环。

从单 Agent 走向多 Agent，当然意味着能力升级，也意味着安全问题开始进入一个新阶段。以后我们需要守住的，已经不只是一个模型的回答边界，还包括一个由多个模型组成的“数字组织”能否在协作中保持清醒。

同专题推荐

查看专题

大模型“开源”到底开了什么？不同协议有什么区别？

拦截、审计、恢复：Agent控制流框架

和人一样，多 Agent 系统也会中“反间计”

被击穿的，常常是组织链条

影响多Agent系统安全性的三维变量

安全不会随着组件数量自动叠加

多 Agent 的问题，往往出在“语义丢失”

拓扑和记忆，也会悄悄改变安全边界

多Agent安全的三个关键点

启发

写在最后

同专题推荐

拦截、审计、恢复：Agent控制流框架

AI 运维 Agent 不能只靠护栏：AIOps 场景下的三层运行时安全架构

LASM：Agent 安全的七层攻击面