7 分钟阅读

LASM：Agent 安全的七层攻击面

论文 LASM 提出七层攻击面模型与四类时间性分类，重构 Agent 安全的分析框架：从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层，揭示 Agent 安全本质是分布式系统安全问题

2026/05/08

传统 LLM 更像是无状态问答系统，而 Agent 是能够跨步骤、跨组件、跨环境执行任务的自主系统，两者面临的安全问题，并不是同一个层级上的东西。

过去我们习惯用”提示注入""越狱""数据投毒”这种标签来讨论风险，这种分类当然有用，但它的问题也很明显。

表面上看，很多攻击都可以归到”prompt injection”下面，可它们真正发生的位置却完全不同。有的攻击发生在模型输入侧，有的发生在工具返回结果里，有的发生在长期记忆写入阶段，还有的发生在多 Agent 通信链路中。名字看起来一样，控制点却根本不一样。

这也是 LASM 最重要的出发点，论文认为，Agent 安全不能继续停留在”这是什么攻击”的层面，而要进一步回答”它打在系统哪一层""穿过了哪条信任边界""该在什么位置布防”。换句话说，LASM 不是再造一份风险词典，而是在给 Agent 安全做一份真正能指导工程落地的架构图。

LASM 框架概览

从研究方法上看，这篇论文更接近一篇系统综述。作者检索了 IEEE Xplore、ACM Digital Library、arXiv 和 Google Scholar，时间范围覆盖 2021 年 1 月到 2025 年 4 月，初始拿到了 1247 篇相关文献，最终筛选出 94 篇核心论文进行分析。

真正有意思的地方，不在”看了多少篇”，而在作者如何组织这些论文。它没有沿用常见的”攻击类型分类法”，而是把文献映射到一套新的框架里，也就是 LASM。这个框架包含两个维度：

第一个维度是系统层级，也就是论文提出的七层攻击面；

第二个维度是攻击的时间性，也就是攻击载荷从植入到真正造成危害，中间会经历怎样的时间跨度。

作者最后得出的结论也相当值得注意：当前研究高度集中在模型层和工具层，集中在即时攻击和单会话攻击；而真正更贴近真实 Agent 部署环境的那些高层、慢变量、跨会话风险，其实研究得远远不够。

研究覆盖分布与空白区域

七层攻击面

LASM，全称是 Layered Attack Surface Model。它把 Agent 系统拆成七层来看，每一层都对应不同的资产、不同的信任边界、不同的攻击方式，也对应不同的防御抓手。

LASM 七层攻击面全图

最底下的第一层，是基础模型层。这里关注的是模型权重、对齐能力、训练过程本身的风险，比如 jailbreak、对抗提示、后门模型、训练数据污染等。这个层面延续了我们对传统大模型安全的很多认识，但在 Agent 时代，它只是底座，而不再是全部。

再往上一层是认知层，也就是 Agent 的规划、推理、目标管理与任务分解机制所在的位置。Agent 并不是简单地”看到问题就回答”，而是会形成行动计划，会在中间步骤里做取舍。于是风险也开始变化，攻击者不一定非要让它立刻输出有害内容，也可以诱导它形成一条错误的规划链路，让它在后续执行中走偏。

第三层是记忆层。这一层对 Agent 来说非常关键，因为它几乎是 Agent 与普通 LLM 的分水岭之一。长期记忆、RAG 检索记忆、用户偏好记忆，都会让系统获得跨会话持续作用的能力，同时也会引入持续性的攻击面。记忆一旦被投毒，危害不一定会在当下暴露，而可能在未来某个看似无关的任务里被触发。

第四层是工具执行层。这一层涉及 Agent 对 API、文件系统、代码解释器、浏览器、数据库、邮件、办公软件等外部工具的调用能力。现实里大量最危险的 Agent 风险，其实都发生在这一层，因为一旦工具被调用，模型输出就不再只是”说了什么”，而是会真正变成”做了什么”。

第五层是多 Agent 协同层。单个 Agent 可能已经足够复杂，而多个 Agent 组成协作网络后，安全问题就会进一步从”单点风险”变成”网络风险”。

第六层是生态与供应链层。这一层讨论的是框架、插件、MCP server、提示模板、模型包、依赖库、外部服务等更大的运行生态。

最上面一层是治理层。日志、归因、问责、监控、持续治理，都会落到这一层。

LASM 真正高明的地方，在于它没有把这七层理解成”七个孤立模块”，而是把它们看作一条纵向贯通的风险链。现实中的 Agent 攻击，往往不是只发生在某一层，而是从一层进入，再穿透到另一层，最后在更高影响的位置释放出来。

七层风险链穿透示意

四类攻击时间性

如果说七层攻击面回答的是”攻击发生在哪”，那么论文提出的 T1 到 T4，则是在回答另一个更关键的问题：攻击何时生效。

T1 即时攻击：载荷和危害都发生在同一次推理里，如一轮对话中的 prompt injection 或越狱
T2 单会话持久攻击：在同一个会话中持续影响后续多轮行为
T3 跨会话累积攻击：最典型是长期记忆投毒，攻击者今天写入看似无害信息，未来才发生偏转
T4 参数级攻击：已深入模型参数、训练过程或生态依赖，甚至无法定位载荷植入时刻

这个时间维度非常重要，因为它直接揭示了当前大量安全防护和安全评测的盲区。很多产品擅长检测 T1，部分产品可以覆盖 T2，但只要风险变成 T3 或 T4，传统的单轮检测、单次审查、单会话红队方法，往往就很难奏效了。

换句话说，Agent 安全的难度，不只在于攻击更复杂，也在于攻击开始”变慢了、变长了、变得更不显眼了”。

T1-T4 攻击时间性分类

工具层的问题是”信任倒置”

论文对工具执行层的一个判断非常精准，那就是很多问题的根源不是工具本身，而是信任关系被倒置了。

正常情况下，Agent 应该优先遵守开发者约束、系统策略和用户合法意图，而把网页内容、邮件内容、文档内容、API 返回值这些环境信息当作低信任输入。

但现实里，大量 Agent 恰恰会把这些环境输入重新拼回上下文，甚至当作高优先级指令理解。

于是，攻击者并不需要直接控制用户输入，只要能污染 Agent 会接触到的环境，就有机会通过”间接注入”的方式改变其行为。

更有效的思路，应该是把外部输入做显式信任分层，把数据和指令严格隔离，对工具调用实施最小权限和沙箱控制，并把高风险、不可逆的动作设计成必须确认的流程。

工具层信任边界与间接注入路径

多 Agent 与供应链会把风险进一步放大

一旦系统从”一个 Agent”变成”多个 Agent 协作”，风险的分析单位就必须从单点切换到网络。单个 Agent 再安全，也不等于系统整体安全。

而到了供应链层，问题会更进一步。如今 Agent 的能力越来越依赖外部插件、框架、提示模板、MCP server 和各种第三方工具。

论文提出的 ABOM（Agent Bill of Materials），正是在这个背景下出现的。它的本意，是像传统软件安全里的 SBOM 一样，把 Agent 的关键组成部分和依赖关系都明确记录下来，包括模型版本、工具权限、系统提示、外部服务、记忆初始化来源等等。

多 Agent 协同风险传播与供应链层

Agent 安全是分布式系统安全问题

LASM 的价值就在于：它提醒我们，Agent 安全不是”模型安全加一点工具风控”这么简单，而是一个典型的分布式系统安全问题。

你必须看到组件边界，看到信任边界，看到时间维度，看到供应链，看到治理和问责，否则就很容易在低层做了很多防护，却在高层留下致命空洞。

三点启发：

第一，安全控制点不能再只押在输入输出过滤上。真正的重点，会逐步转向记忆写入控制、工具调用约束、消息链路验证、外部组件准入、行为审计与责任追踪。

第二，安全评测体系需要升级。未来更应该测的是多会话、长时间跨度、延迟触发、链路传播和慢性漂移。

第三，Agent 安全产品的形态也会发生变化。它不再只是一个模型前后加的护栏，而更像是一个围绕运行时环境展开的安全底座。

如果只用一句话来概括这篇论文：它真正提醒我们的，不是 Agent 有多少种新攻击，而是 Agent 安全的观察视角必须升级了。LASM 的价值，就在于先把这张地图画出来。

同专题推荐

查看专题

智能体正式进入监管周期：中国开始为 Agent 时代建立治理底座

AgentWard：高自主Agent全生命周期安全框架