跳到正文
3 分钟阅读

SafeHarness:Agent 运行时安全四层架构

Agent 安全不能只盯输入输出,更要盯住执行过程、工具权限和状态变化。

2026/04/30

今天介绍一篇 Agent Harness 安全方向的论文:《SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment》

SafeHarness 论文封面

这篇文章关注的不是某一种新的提示注入攻击,也不是某一个单点防御模型,而是一个更工程化的问题:

当大模型开始变成 Agent,并且可以调用工具、读取网页、操作文件、写入记忆、执行多步骤任务时,安全机制应该放在哪里?

过去很多大模型安全方案,主要盯住两个地方:输入和输出。这些当然重要,但到了 Agent 场景里,只看输入输出已经不够了。因为 Agent 的危险行为往往发生在中间过程。

所以,这篇论文提出了一个很关键的判断:Agent 安全要进入 Harness 运行时。

这里的 Harness,可以简单理解为 Agent 的”执行编排层”。模型负责”想”,工具负责”做”,Harness 负责”让模型怎么想、怎么调用工具、怎么更新状态、什么时候停下来”。

SafeHarness 的目标,就是把安全能力嵌入 Agent 的整个生命周期,而不是在外面简单套一层过滤器。

SafeHarness 架构总览

为什么传统护栏不够用了?

1. 看不到 Harness 内部状态:危险不一定写在用户 query 里,而可能藏在工具返回、网页内容、检索文档、历史记忆里。

2. 各个安全模块彼此孤立:Agent 安全不是单点判断问题,而是连续执行过程中的风险累积问题。

3. 缺少出事后的恢复能力:如果没有回滚、降权、工具禁用等机制,Agent 一旦进入错误轨道,就可能越走越远。

SafeHarness 的威胁模型

论文把 Agent 系统拆成四个部分:模型、工具集合、执行环境、Harness 运行时。论文重点讨论了六类威胁:直接提示注入、间接提示注入、工具滥用、工具篡改、记忆污染、权限升级。

威胁模型

SafeHarness 的四层架构

  • Inform(信息净化层):内容进入上下文之前,先清洗
  • Verify(动作验证层):Agent 准备行动之前,先验证
  • Constrain(权限约束层):工具真正执行之前,先约束权限
  • Correct(状态纠偏层):系统出现异常之后,能回滚和降级

第一层 Inform

Inform 层负责处理所有外部输入。论文设计了三步处理:结构化清洗、规则匹配、语义过滤。SafeHarness 还会给每段内容打上来源标签和信任等级,传递给后续 Verify 层。

Inform 层架构

第二层 Verify

Verify 层负责审查 Agent 准备执行的动作。论文设计了三层验证机制:规则引擎、上下文 Judge、因果诊断。

第三层 Constrain

Constrain 层负责限制工具执行能力:能力令牌、动态权限上限、工具描述完整性校验。

Constrain 层架构

第四层 Correct

Correct 层解决”出事之后怎么办”。它定期保存检查点,一旦确认攻击诱导就触发回滚和降级。

四层联动

SafeHarness 最有价值的地方,是四个模块之间会互相反馈。论文还设计了运行时监控机制,实现”态势感知”。

四层联动

实验结果

SafeHarness 在不同模型、不同 Harness 配置下,都显著降低了不安全行为率和攻击成功率。

实验结果

最难防的是记忆污染和复合攻击

记忆污染会跨任务、跨轮次、跨时间持续影响 Agent。SafeHarness 里把记忆纳入 Correct 的快照和回滚范围。

记忆污染防护

五点启发

  1. Agent 安全要从内容审核升级到运行时安全
  2. 工具调用应该成为核心检测点
  3. 权限控制不能靠提示词
  4. 记忆模块必须有安全边界
  5. Agent 产品需要”安全降级模式”

写在最后

Agent 的风险发生在执行过程中,所以安全也必须进入执行过程。

用 Inform 管住上下文进入,用 Verify 管住动作生成,用 Constrain 管住工具执行,用 Correct 管住状态恢复——这四层连起来,才更接近一个可落地的 Agent 安全运行时。

同专题推荐

查看专题

AgentBound:给 MCP Server 套上权限边界

MCP 解决了 Agent 接入工具和资源的标准化问题,但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互,但在实际落地中,很多安全责任被交给应用开发者和宿主应用自行处理。 结果就是,MCP Server 往往以“默认可信”的方式运行。 这和移动…

当 Mythos 成为对手:高能力 AI 的安全边界正在失效

这两天,一篇题为 《When the Agent Is the Adversary》 的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入,也不是常见的越狱绕过,而是一个更让人不安的问题:当高能力 Agent 不再只是“被保护对象”,而开始成为“主动对手”时,我们今天熟悉的那些安全边界,还…