跳到正文
7 分钟阅读

LASM:Agent 安全的七层攻击面

论文 LASM 提出七层攻击面模型与四类时间性分类,重构 Agent 安全的分析框架:从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层,揭示 Agent 安全本质是分布式系统安全问题

2026/05/08

传统 LLM 更像是无状态问答系统,而 Agent 是能够跨步骤、跨组件、跨环境执行任务的自主系统,两者面临的安全问题,并不是同一个层级上的东西。

过去我们习惯用”提示注入""越狱""数据投毒”这种标签来讨论风险,这种分类当然有用,但它的问题也很明显。

表面上看,很多攻击都可以归到”prompt injection”下面,可它们真正发生的位置却完全不同。有的攻击发生在模型输入侧,有的发生在工具返回结果里,有的发生在长期记忆写入阶段,还有的发生在多 Agent 通信链路中。名字看起来一样,控制点却根本不一样。

这也是 LASM 最重要的出发点,论文认为,Agent 安全不能继续停留在”这是什么攻击”的层面,而要进一步回答”它打在系统哪一层""穿过了哪条信任边界""该在什么位置布防”。换句话说,LASM 不是再造一份风险词典,而是在给 Agent 安全做一份真正能指导工程落地的架构图。

LASM 框架概览

从研究方法上看,这篇论文更接近一篇系统综述。作者检索了 IEEE Xplore、ACM Digital Library、arXiv 和 Google Scholar,时间范围覆盖 2021 年 1 月到 2025 年 4 月,初始拿到了 1247 篇相关文献,最终筛选出 94 篇核心论文进行分析。

真正有意思的地方,不在”看了多少篇”,而在作者如何组织这些论文。它没有沿用常见的”攻击类型分类法”,而是把文献映射到一套新的框架里,也就是 LASM。这个框架包含两个维度:

第一个维度是系统层级,也就是论文提出的七层攻击面;

第二个维度是攻击的时间性,也就是攻击载荷从植入到真正造成危害,中间会经历怎样的时间跨度。

作者最后得出的结论也相当值得注意:当前研究高度集中在模型层和工具层,集中在即时攻击和单会话攻击;而真正更贴近真实 Agent 部署环境的那些高层、慢变量、跨会话风险,其实研究得远远不够。

研究覆盖分布与空白区域

七层攻击面

LASM,全称是 Layered Attack Surface Model。它把 Agent 系统拆成七层来看,每一层都对应不同的资产、不同的信任边界、不同的攻击方式,也对应不同的防御抓手。

LASM 七层攻击面全图

最底下的第一层,是基础模型层。这里关注的是模型权重、对齐能力、训练过程本身的风险,比如 jailbreak、对抗提示、后门模型、训练数据污染等。这个层面延续了我们对传统大模型安全的很多认识,但在 Agent 时代,它只是底座,而不再是全部。

再往上一层是认知层,也就是 Agent 的规划、推理、目标管理与任务分解机制所在的位置。Agent 并不是简单地”看到问题就回答”,而是会形成行动计划,会在中间步骤里做取舍。于是风险也开始变化,攻击者不一定非要让它立刻输出有害内容,也可以诱导它形成一条错误的规划链路,让它在后续执行中走偏。

第三层是记忆层。这一层对 Agent 来说非常关键,因为它几乎是 Agent 与普通 LLM 的分水岭之一。长期记忆、RAG 检索记忆、用户偏好记忆,都会让系统获得跨会话持续作用的能力,同时也会引入持续性的攻击面。记忆一旦被投毒,危害不一定会在当下暴露,而可能在未来某个看似无关的任务里被触发。

第四层是工具执行层。这一层涉及 Agent 对 API、文件系统、代码解释器、浏览器、数据库、邮件、办公软件等外部工具的调用能力。现实里大量最危险的 Agent 风险,其实都发生在这一层,因为一旦工具被调用,模型输出就不再只是”说了什么”,而是会真正变成”做了什么”。

第五层是多 Agent 协同层。单个 Agent 可能已经足够复杂,而多个 Agent 组成协作网络后,安全问题就会进一步从”单点风险”变成”网络风险”。

第六层是生态与供应链层。这一层讨论的是框架、插件、MCP server、提示模板、模型包、依赖库、外部服务等更大的运行生态。

最上面一层是治理层。日志、归因、问责、监控、持续治理,都会落到这一层。

LASM 真正高明的地方,在于它没有把这七层理解成”七个孤立模块”,而是把它们看作一条纵向贯通的风险链。现实中的 Agent 攻击,往往不是只发生在某一层,而是从一层进入,再穿透到另一层,最后在更高影响的位置释放出来。

七层风险链穿透示意

四类攻击时间性

如果说七层攻击面回答的是”攻击发生在哪”,那么论文提出的 T1 到 T4,则是在回答另一个更关键的问题:攻击何时生效。

  • T1 即时攻击:载荷和危害都发生在同一次推理里,如一轮对话中的 prompt injection 或越狱
  • T2 单会话持久攻击:在同一个会话中持续影响后续多轮行为
  • T3 跨会话累积攻击:最典型是长期记忆投毒,攻击者今天写入看似无害信息,未来才发生偏转
  • T4 参数级攻击:已深入模型参数、训练过程或生态依赖,甚至无法定位载荷植入时刻

这个时间维度非常重要,因为它直接揭示了当前大量安全防护和安全评测的盲区。很多产品擅长检测 T1,部分产品可以覆盖 T2,但只要风险变成 T3 或 T4,传统的单轮检测、单次审查、单会话红队方法,往往就很难奏效了。

换句话说,Agent 安全的难度,不只在于攻击更复杂,也在于攻击开始”变慢了、变长了、变得更不显眼了”。

T1-T4 攻击时间性分类

工具层的问题是”信任倒置”

论文对工具执行层的一个判断非常精准,那就是很多问题的根源不是工具本身,而是信任关系被倒置了。

正常情况下,Agent 应该优先遵守开发者约束、系统策略和用户合法意图,而把网页内容、邮件内容、文档内容、API 返回值这些环境信息当作低信任输入。

但现实里,大量 Agent 恰恰会把这些环境输入重新拼回上下文,甚至当作高优先级指令理解。

于是,攻击者并不需要直接控制用户输入,只要能污染 Agent 会接触到的环境,就有机会通过”间接注入”的方式改变其行为。

更有效的思路,应该是把外部输入做显式信任分层,把数据和指令严格隔离,对工具调用实施最小权限和沙箱控制,并把高风险、不可逆的动作设计成必须确认的流程。

工具层信任边界与间接注入路径

多 Agent 与供应链会把风险进一步放大

一旦系统从”一个 Agent”变成”多个 Agent 协作”,风险的分析单位就必须从单点切换到网络。单个 Agent 再安全,也不等于系统整体安全。

而到了供应链层,问题会更进一步。如今 Agent 的能力越来越依赖外部插件、框架、提示模板、MCP server 和各种第三方工具。

论文提出的 ABOM(Agent Bill of Materials),正是在这个背景下出现的。它的本意,是像传统软件安全里的 SBOM 一样,把 Agent 的关键组成部分和依赖关系都明确记录下来,包括模型版本、工具权限、系统提示、外部服务、记忆初始化来源等等。

多 Agent 协同风险传播与供应链层

Agent 安全是分布式系统安全问题

LASM 的价值就在于:它提醒我们,Agent 安全不是”模型安全加一点工具风控”这么简单,而是一个典型的分布式系统安全问题。

你必须看到组件边界,看到信任边界,看到时间维度,看到供应链,看到治理和问责,否则就很容易在低层做了很多防护,却在高层留下致命空洞。

三点启发:

第一,安全控制点不能再只押在输入输出过滤上。真正的重点,会逐步转向记忆写入控制、工具调用约束、消息链路验证、外部组件准入、行为审计与责任追踪。

第二,安全评测体系需要升级。未来更应该测的是多会话、长时间跨度、延迟触发、链路传播和慢性漂移。

第三,Agent 安全产品的形态也会发生变化。它不再只是一个模型前后加的护栏,而更像是一个围绕运行时环境展开的安全底座。

如果只用一句话来概括这篇论文:它真正提醒我们的,不是 Agent 有多少种新攻击,而是 Agent 安全的观察视角必须升级了。LASM 的价值,就在于先把这张地图画出来。

同专题推荐

查看专题

AgentBound:给 MCP Server 套上权限边界

MCP 解决了 Agent 接入工具和资源的标准化问题,但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互,但在实际落地中,很多安全责任被交给应用开发者和宿主应用自行处理。 结果就是,MCP Server 往往以“默认可信”的方式运行。 这和移动…

当 Mythos 成为对手:高能力 AI 的安全边界正在失效

这两天,一篇题为 《When the Agent Is the Adversary》 的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入,也不是常见的越狱绕过,而是一个更让人不安的问题:当高能力 Agent 不再只是“被保护对象”,而开始成为“主动对手”时,我们今天熟悉的那些安全边界,还…