SafeHarness:Agent 运行时安全四层架构
Agent 安全不能只盯输入输出,更要盯住执行过程、工具权限和状态变化。
今天介绍一篇 Agent Harness 安全方向的论文:《SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment》。

这篇文章关注的不是某一种新的提示注入攻击,也不是某一个单点防御模型,而是一个更工程化的问题:
当大模型开始变成 Agent,并且可以调用工具、读取网页、操作文件、写入记忆、执行多步骤任务时,安全机制应该放在哪里?
过去很多大模型安全方案,主要盯住两个地方:输入和输出。这些当然重要,但到了 Agent 场景里,只看输入输出已经不够了。因为 Agent 的危险行为往往发生在中间过程。
所以,这篇论文提出了一个很关键的判断:Agent 安全要进入 Harness 运行时。
这里的 Harness,可以简单理解为 Agent 的”执行编排层”。模型负责”想”,工具负责”做”,Harness 负责”让模型怎么想、怎么调用工具、怎么更新状态、什么时候停下来”。
SafeHarness 的目标,就是把安全能力嵌入 Agent 的整个生命周期,而不是在外面简单套一层过滤器。

为什么传统护栏不够用了?
1. 看不到 Harness 内部状态:危险不一定写在用户 query 里,而可能藏在工具返回、网页内容、检索文档、历史记忆里。
2. 各个安全模块彼此孤立:Agent 安全不是单点判断问题,而是连续执行过程中的风险累积问题。
3. 缺少出事后的恢复能力:如果没有回滚、降权、工具禁用等机制,Agent 一旦进入错误轨道,就可能越走越远。
SafeHarness 的威胁模型
论文把 Agent 系统拆成四个部分:模型、工具集合、执行环境、Harness 运行时。论文重点讨论了六类威胁:直接提示注入、间接提示注入、工具滥用、工具篡改、记忆污染、权限升级。

SafeHarness 的四层架构
- Inform(信息净化层):内容进入上下文之前,先清洗
- Verify(动作验证层):Agent 准备行动之前,先验证
- Constrain(权限约束层):工具真正执行之前,先约束权限
- Correct(状态纠偏层):系统出现异常之后,能回滚和降级
第一层 Inform
Inform 层负责处理所有外部输入。论文设计了三步处理:结构化清洗、规则匹配、语义过滤。SafeHarness 还会给每段内容打上来源标签和信任等级,传递给后续 Verify 层。

第二层 Verify
Verify 层负责审查 Agent 准备执行的动作。论文设计了三层验证机制:规则引擎、上下文 Judge、因果诊断。
第三层 Constrain
Constrain 层负责限制工具执行能力:能力令牌、动态权限上限、工具描述完整性校验。

第四层 Correct
Correct 层解决”出事之后怎么办”。它定期保存检查点,一旦确认攻击诱导就触发回滚和降级。
四层联动
SafeHarness 最有价值的地方,是四个模块之间会互相反馈。论文还设计了运行时监控机制,实现”态势感知”。

实验结果
SafeHarness 在不同模型、不同 Harness 配置下,都显著降低了不安全行为率和攻击成功率。

最难防的是记忆污染和复合攻击
记忆污染会跨任务、跨轮次、跨时间持续影响 Agent。SafeHarness 里把记忆纳入 Correct 的快照和回滚范围。

五点启发
- Agent 安全要从内容审核升级到运行时安全
- 工具调用应该成为核心检测点
- 权限控制不能靠提示词
- 记忆模块必须有安全边界
- Agent 产品需要”安全降级模式”
写在最后
Agent 的风险发生在执行过程中,所以安全也必须进入执行过程。
用 Inform 管住上下文进入,用 Verify 管住动作生成,用 Constrain 管住工具执行,用 Correct 管住状态恢复——这四层连起来,才更接近一个可落地的 Agent 安全运行时。
同专题推荐
查看专题LASM:Agent 安全的七层攻击面
论文 LASM 提出七层攻击面模型与四类时间性分类,重构 Agent 安全的分析框架:从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层,揭示 Agent 安全本质是分布式系统安全问题
AgentBound:给 MCP Server 套上权限边界
MCP 解决了 Agent 接入工具和资源的标准化问题,但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互,但在实际落地中,很多安全责任被交给应用开发者和宿主应用自行处理。 结果就是,MCP Server 往往以“默认可信”的方式运行。 这和移动…
当 Mythos 成为对手:高能力 AI 的安全边界正在失效
这两天,一篇题为 《When the Agent Is the Adversary》 的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入,也不是常见的越狱绕过,而是一个更让人不安的问题:当高能力 Agent 不再只是“被保护对象”,而开始成为“主动对手”时,我们今天熟悉的那些安全边界,还…