跳到正文
16 分钟阅读

从轨迹诊断到在线护栏:AgentDoG 1.5 与 Agent 安全的新阶段

AgentDoG 1.5 在三维风险分类框架基础上扩展了 OpenClaw 和 Codex-style Agent 新执行场景,发布 ATBench-Claw 与 ATBench-Codex 评测集,训练了 0.8B–8B 可部署的轻量安全诊断模型,并引入在线 Pre-Reply 护栏,将 Agent 安全从轨迹诊断推进到运行时治理。

2026/06/05

今年 2 月,我们介绍过上海人工智能实验室提出的 AgentDoG。

那篇文章的核心观点是:Agent 安全不能只看最终输出,因为真正的风险往往藏在执行过程之中。

一个 Agent 可能在中间步骤里调用了危险工具,可能被网页、文档、工具返回结果里的间接提示注入带偏,也可能因为过度权限、错误规划、未验证工具输出,做出表面合理但实际危险的动作。

用一个简单的 safe / unsafe 标签,很难解释风险从哪里来、Agent 怎么失败、最后会造成什么现实伤害。

当时 AgentDoG 最重要的贡献,是把 Agent 风险拆成三个维度:Risk Source,风险来源;Failure Mode,失败方式;Real-world Harm,现实危害。

换句话说,它试图回答三个问题:风险从哪里进入 Agent 系统,Agent 是如何在行为或输出上失败的,这种失败最终会造成什么现实后果。

这套框架的价值在于,它让 Agent 安全从”看最后一句话是否违规”,变成了”看完整运行轨迹是否安全”。而这一次,AgentDoG 1.5 又往前走了一步。

图1

https://arxiv.org/html/2605.29801v1

https://github.com/AI45Lab/AgentDoG

https://huggingface.co/collections/AI45Research/agentdog1.5

如果说 AgentDoG 1.0 解决的是”如何看懂 Agent 风险”,那么 AgentDoG 1.5 进一步回答的是:如何把这种风险理解能力,变成可训练、可部署、可在线干预的安全能力。

图2

原文图 2: 用于 AI 代理安全保障的轻量级可扩展对齐框架。

Agent 安全正在进入更复杂的执行环境

过去讨论 Agent 安全,很多时候还停留在通用工具调用场景。Agent 可以搜索网页,可以访问文档,可以调用 API,也可以根据工具返回结果继续执行下一步。这个阶段的风险已经比普通聊天复杂很多,但它仍然主要围绕”工具使用”展开。

AgentDoG 1.5 关注的是更进一步的场景:OpenClaw 和 Codex-style Agent。前者强调跨应用、跨工具、跨 session 的复杂执行能力,后者则更接近代码智能体,会读仓库、改文件、执行 shell 命令、调用 MCP server、处理依赖、生成 patch。

论文认为,现代 open-world agents 的执行能力变强之后,也带来了更宽的新风险面;因此需要一个轻量、可扩展的 Agent 安全对齐框架。

这和传统内容安全很不一样。传统内容安全主要关心”模型说了什么”。但是在代码 Agent 或跨应用 Agent 场景中,更关键的问题往往是”模型做了什么”。它有没有误删文件,有没有泄露环境变量,有没有执行不安全脚本,有没有绕过审批,有没有把一个 session 里的信息错误地带到另一个 session 里,有没有把工具返回里的恶意指令当成可信事实。

所以,AgentDoG 1.5 的一个重要变化,是把原来的三维风险分类框架扩展到了新的执行场景。论文仍然保留 Risk Source、Failure Mode、Real-world Harm 这三个高层维度,但允许不同 Agent 场景扩展自己的叶子类风险。这样既保持了框架稳定,也能适配不断变化的新 Agent 形态。

图3

原文图 3: AgentDoG 1.5 使用原有的三维智能体安全分类体系作为共享的诊断结构,涵盖风险源、失效模式和实际危害。ATBench-Claw 和 ATBench-Codex 的特定设置自定义项均基于此共享结构,展示了如何在保持与原有分类体系维度兼容性的同时,引入新的执行设置。

1.5 不是推翻前作,而是把前作变成可扩展底座

AgentDoG 1.5 最值得注意的地方,并不是重新发明了一套风险分类,而是保留了前作的三维诊断结构,并在此基础上做场景化扩展。

在 OpenClaw 场景中,风险和 session、技能、插件、审批、路由、外部动作有关。论文提到,ATBench-Claw 会关注 sender/session identity ambiguity、persistent memory or session-state contamination、skill/plugin supply-chain compromise、approval bypass、cross-tool attack chaining、cross-channel misrouting、unsafe unattended automation 等风险。

简单翻译一下,就是身份边界不清、会话状态污染、技能或插件供应链问题、审批绕过、跨工具攻击链、跨渠道误路由、无人值守自动化风险。

这些风险非常符合今天 Agent 产品的真实问题。一个 Agent 如果只是聊天,最多是在文本层面出错;但如果它开始接入邮箱、IM、办公系统、代码仓库、云资源和内部审批流,风险就不再只是”说错话”,而是可能变成”以错误身份执行动作""在错误上下文里使用权限""跨系统串联造成不可逆影响”。

在 Codex-style Agent 场景中,风险则更多和代码执行有关。论文提到,ATBench-Codex 关注 repository artifacts、shell commands、patches、dependencies、MCP servers、network access 和 execution policies。风险可能藏在仓库文件、构建脚本、依赖配置、MCP 元数据、测试输出、shell 反馈或生成的 patch 之中。

这其实点出了代码 Agent 安全的一个核心问题:很多风险并不在用户提示词里,而在工作区、依赖、脚本、测试输出和工具协议里。Agent 如果不具备轨迹级风险判断能力,很容易把”环境中的恶意信息”当成任务上下文,把”工具或仓库里的危险信号”当成可信事实。

图4

原文图 4: 用于评估 AgentDoG 1.5 的 ATBench 系列。所有基准测试实例均采用相同的三维安全分类和轨迹级诊断任务,而 ATBench-Claw 和 ATBench-Codex 则针对其目标智能体环境定制了执行设置、轨迹证据和叶子节点类别。

从 benchmark 到 benchmark family

前作 AgentDoG 的评测核心是 ATBench。它把完整多轮执行轨迹作为评估对象,每条轨迹有 safe / unsafe 标签;如果是 unsafe,还会标注风险来源、失败方式和现实危害。论文中提到,基础 ATBench 包含 1000 条审计轨迹,其中 503 条 safe、497 条 unsafe,涉及 2084 个可用工具,实际调用 1954 个工具,平均每条轨迹 9.01 轮、约 3.95k tokens。

AgentDoG 1.5 将这个思路扩展成 ATBench family。除了基础 ATBench,又增加了 ATBench-Claw 和 ATBench-Codex。ATBench-Claw 面向 OpenClaw 这类有状态、多工具、跨渠道的执行环境,包含 500 条轨迹,其中 204 条 safe、296 条 unsafe,平均每条轨迹 13.09 个消息事件。ATBench-Codex 面向代码 Agent 场景,也包含 500 条轨迹,其中 250 条 safe、250 条 unsafe,平均对话长度 7.51 轮,平均 rollout 21.80 个事件。

这意味着 AgentDoG 1.5 的评测对象不再只是”通用工具调用轨迹”,而是开始覆盖更贴近现实产品的 Agent 执行环境。

更重要的是,论文并没有为每种 Agent 单独定义一套完全割裂的安全框架。它采用的是”高层维度稳定、叶子类风险可扩展”的方式。无论是通用工具 Agent、OpenClaw Agent,还是 Codex Agent,最终仍然围绕三个问题诊断:风险从哪里来,Agent 如何失败,会造成什么现实危害。

这个设计很关键。因为 Agent 形态会快速变化,今天是代码 Agent、桌面 Agent,明天可能是企业流程 Agent、浏览器 Agent、机器人 Agent。如果每出现一种 Agent,就重新做一套分类体系,安全评测会变得碎片化,很难积累通用能力。AgentDoG 1.5 的做法,是给 Agent 安全留出扩展口,同时保持诊断语言的一致性。

轻量化模型:Agent 安全不能只靠大模型裁判

AgentDoG 1.5 的第二个重点,是训练轻量化安全诊断模型。

论文提出了一个 taxonomy-guided data engine,也就是由三维风险分类体系引导的数据生成引擎。

它会从 Risk Source、Failure Mode、Real-world Harm 三个维度中采样风险组合,构造对应的工具调用交互轨迹,注入特定风险,再生成带有推理解释的训练样本。

随后,论文使用基于 influence function 的数据净化方法,从原始数据中筛选出更有价值的训练样本,最终用大约 1000 条高质量样本训练 AgentDoG 1.5 的多个轻量版本,包括 0.8B、2B、4B 和 8B。

这个点非常值得关注。因为在真实业务里,安全护栏不能一直依赖一个超大的闭源模型做裁判。Agent 运行时可能有大量中间轨迹、工具调用、上下文片段和最终回复需要判断。如果每次都调用大模型,成本、延迟、私有化部署、数据安全都会成为问题。

图5

原文图 6: AgentDoG 1.5 的构建流程。上图展示了数据引擎,左下图展示了 AgentDoG 1.5 的数据准备和训练流程,右下图展示了 AgentDoG 1.5 如何应用于构建智能体 SFT 数据。

AgentDoG 1.5 试图证明一件事:只要有结构化的风险分类、高质量轨迹数据和针对性的训练,小模型也可以学会 Agent 安全诊断能力。

从实验结果看,AgentDoG 1.5-4B 在 R-Judge 上达到 92.2% accuracy 和 92.7% F1,在 ATBench 上达到 72.4% accuracy 和 74.3% F1。相比 AgentDoG 1.0,1.5-4B 在 R-Judge 上保持同等 F1,同时在 ATBench 上提升了 8.4 个准确率点和 3.2 个 F1 点。论文还指出,0.8B 和 2B 版本也展现出较好的成本收益比,说明轨迹级监督和诊断数据可以被蒸馏进更小的模型中。

更有意思的是,论文还探索了一个统一模型 AgentDoG 1.5-4B-U,让模型同时做粗粒度 safe / unsafe 判断和细粒度三维风险诊断。结果显示,细粒度诊断监督反而能提升粗粒度安全判断能力。4B-U 在 ATBench 上达到 78.4% accuracy 和 77.7% F1,在 ATBench-Codex 和 ATBench-Claw 上分别达到 84.4% 和 87.6% accuracy。

这背后的启发是:让模型解释”为什么 unsafe”,可能比只训练它判断”是否 unsafe”更有效。风险来源、失败方式和现实危害,提供了一种中间结构,让模型不只是记住标签,而是学习 Agent 行为出问题的因果链条。

图6

原文图 7: ATBench-Codex 和 ATBench-Claw 在不同模型大小下的准确率。x 轴使用密集模型大小和 MoE 模型的激活参数。闭源模型用最高和最低的闭源参考线表示,因为它们的参数大小不公开。模型名称中未明确指定大小的保护模型使用近似主干大小放置,并略微水平抖动以提高可读性。由于 Qwen3.5-0.8B 和 Qwen3.5-2B 的严格解析器有效性较低,因此未列出。

从安全评测走向安全训练

AgentDoG 1.5 的第三个变化,是把自己从”评测器”推进到”训练环境的一部分”。

过去很多安全评测框架的定位是:模型训练完之后,我来测一下它安不安全。这个定位当然重要,但对 Agent 来说还不够。因为 Agent 的安全问题不是只出现在最终回复上,而是贯穿任务规划、工具调用、环境交互和状态更新。如果安全能力只在事后评估阶段出现,它对模型行为本身的塑造有限。

AgentDoG 1.5 尝试进入训练过程。论文中介绍了 agentic safety SFT 和 agentic safety RL 两个应用。

在 SFT 阶段,研究者使用 ATBench 数据引擎构造 Agent 安全数据,再用 AgentDoG 1.5 过滤高质量安全轨迹。过滤后的数据集包含 28,705 条高质量 Agent 安全轨迹,并额外混入 50,000 条来自 ToolBench、ToolAlpaca、ToolACE 的良性工具使用轨迹,形成大约 1:2 的安全关键数据与良性数据混合。这样做的目的,是让模型学会必要的安全干预,同时避免形成过度保守的拒答策略。

这个设计很务实。很多安全训练容易把模型训成”什么都不敢做”。在 Agent 场景中,如果护栏太保守,Agent 的工具调用能力、任务完成能力会明显下降。AgentDoG 1.5 的做法,是通过安全轨迹和良性轨迹混合,让模型同时学会两件事:该拒绝时拒绝,该完成时完成。

图7

原文图 8: AgentDoG 1.5 过滤后的代理安全 SFT 数据的分类分布。所得数据集包含 AgentDoG 1.5 选择的 28,705 条高质量轨迹,按故障模式、现实世界危害和风险来源进行分类。

在 RL 阶段,论文进一步构建了轻量化交互环境。它不是完整复制真实软件环境,而是通过有限状态 Python 模拟器保留任务相关资源、工具接口和规则化奖励,再注入环境攻击和恶意用户请求。这样可以在较低成本下生成可用于安全强化学习的交互反馈。

图8

原文图 9:用于智能安全强化学习的双场景环境合成流程。

论文还专门评估了这种轻量环境的可扩展性。在实验中,系统可以同时加载 10,000 个环境,维持 1,000 个活跃实例,并执行 1,000 个并发工具调用;峰值内存严格控制在 2.5GB 以下。

图9

原文图 10: 合成环境的可扩展性。 在极端工作负载下,执行延迟和内存占用保持高度稳定,峰值内存消耗低于 2.5 GB。

这说明 AgentDoG 1.5 并不是只做一个离线 benchmark,而是在尝试搭建 Agent 安全训练的基础设施。它既可以筛选 SFT 数据,也可以在 RL 中提供安全奖励信号,让 Agent 在训练阶段就更习惯于识别风险、拒绝危险动作、保持正常任务能力。

在线护栏:安全判断必须进入运行时

AgentDoG 1.5 最接近产品化的一部分,是 online agent safety guardrail。

传统护栏常见做法是输入前过滤和输出后审核。输入前过滤可以拦截明显恶意请求,输出后审核可以防止最终回复出现有害内容。但 Agent 的问题在于,很多危险动作发生在中间过程。Agent 可能在最终回复之前已经调用了工具、发送了信息、修改了文件、执行了命令。只看输入和最终输出,很容易漏掉关键风险。

AgentDoG 1.5 的在线护栏设计,是把 Agent 的工具调用、环境观察、历史事件和最终回复一起重构成轨迹,在最终回复交付给用户之前进行 Pre-Reply 检查。安全轨迹可以交付,unsafe 轨迹则会在发布前被阻断。论文还提到,系统提供 runtime dashboard,用于记录事件流、重构历史、护栏结果和延迟,便于调试、审计和衡量干预成本。

这一步非常关键。因为它把 Agent 安全从”评测报告里的结论”,推进到了”系统运行链路中的控制点”。

从实验结果看,在 ClawSafety 上,无护栏时残余 unsafe final-delivery rate 为 56.25%,AgentDoG 1.5-0.8B 降到 25.00%,AgentDoG 1.5-4B 降到 18.75%。在 AgentHazard 上,无护栏为 41.92%,0.8B 降到 29.23%,4B 降到 26.92%。在 CIK-Bench 上,无护栏为 94.29%,4B 降到 42.86%。

论文同时指出,AgentDoG 1.5 的输出比部分对比 guardrail 模型更长,但 TTFT 仍保持在亚秒级,TPOT 也在每 token 几百分之一秒量级;由于这个成本只发生在最终交付检查点,而不是每次工具调用后都发生,因此在 Pre-Reply 监控中仍具有实践意义。

当然,这种 Pre-Reply 护栏也有边界。它适合阻断最终回复中仍可观察、可阻止的风险,比如泄露隐私信息、输出危险内容、声称完成了有害操作等。但如果 Agent 在更早的工具调用阶段已经造成了外部副作用,比如已经删了文件、转了账、发了邮件,那么最终回复前再判断就已经晚了。

论文自己也指出,AgentDoG 1.5 主要处理文本轨迹;真实 Agent 会越来越多地进入 GUI、文档、音频、视频等多模态环境。同时,Pre-Reply 护栏无法完全防止早期外部副作用造成的伤害,更完整的安全架构需要结合工具调用时检查、权限感知执行策略和高风险动作的人类审批。

这也是我们理解 AgentDoG 1.5 时需要注意的一点:它不是 Agent 安全的全部答案,而是 Agent 安全架构中的一个关键模块。它擅长做轨迹级诊断、训练数据筛选、安全奖励建模和最终交付前拦截,但对高风险工具动作,仍然需要更前置的权限控制、审批机制、沙箱机制和运行时策略执行。

图10

原文图 12:在线代理安全防护管道。

Agent 安全从”看结果”走向”看过程”

AgentDoG 1.5 的意义,不只在于一个模型效果提升,也不只在于一个 benchmark 扩展。它背后更大的变化,是 Agent 安全范式正在发生迁移。

第一阶段,我们主要看内容安全。用户问了什么,模型答了什么,最终输出是否违规。

第二阶段,我们开始看 Agent 轨迹。模型如何规划,调用了什么工具,工具返回了什么,Agent 是否被外部环境带偏,是否做出了未经确认的高权限操作。

第三阶段,也就是 AgentDoG 1.5 正在推进的方向,是把轨迹级安全理解能力放进训练和运行时。它不只是评测 Agent 是否安全,还要帮助构造安全数据,提供安全奖励,部署成在线护栏,参与真实 Agent 系统的安全治理。

这就把 Agent 安全从一个”事后测评问题”,推进成了一个”生命周期治理问题”。

在这个生命周期里,风险分类体系提供语言,benchmark 提供评测标准,轻量模型提供可部署能力,SFT 和 RL 提供行为塑造机制,online guardrail 提供运行时控制点。AgentDoG 1.5 试图把这些环节串起来,形成一个更完整的 Agent 安全对齐框架。

对产业落地的启发

从产业角度看,AgentDoG 1.5 至少给出了三个值得关注的方向。

首先,Agent 安全产品不能只做输入输出过滤。输入输出过滤仍然重要,但它无法覆盖工具调用、状态污染、审批绕过、仓库投毒、MCP 供应链、shell 执行、跨渠道误路由等过程风险。真正面向 Agent 的安全系统,必须记录、理解和分析完整执行轨迹。

其次,Agent 安全护栏需要轻量化。企业落地时,不可能每个 Agent、每条轨迹、每次交付都调用一个超大模型做复杂判断。轻量模型、结构化轨迹、低延迟诊断、可私有化部署,会成为 Agent 安全产品能否落地的关键。

最后,Agent 安全不能只靠模型判断,还需要工程控制。AgentDoG 1.5 的 Pre-Reply 检查适合阻断最终交付风险,但对已经发生的外部副作用无能为力。因此在真实系统中,还需要工具调用前检查、高风险动作审批、权限最小化、沙箱执行、审计日志、回滚机制和策略引擎。轨迹级 guardrail 是大脑,权限与执行控制是手脚,二者缺一不可。

这也是 Agent 安全和传统大模型安全最大的区别:传统大模型主要输出文本,Agent 会改变环境。只要系统开始改变环境,安全就不能停留在内容审核层,而必须进入动作链路、权限链路和执行链路。

写在最后

AgentDoG 1.0 让我们看见了 Agent 风险的结构。它告诉我们,风险不能只用 safe / unsafe 概括,而要拆成风险来源、失败方式和现实危害。

AgentDoG 1.5 则进一步说明,结构化风险理解不能只停留在论文和评测集里。它需要进入数据生成,进入轻量模型训练,进入 SFT 和 RL,进入在线运行时,最终成为 Agent 系统的一部分。

当 Agent 不再只是回答问题,而是开始调用工具、修改文件、执行代码、维护长期状态、跨系统完成任务时,安全护栏也不能停留在”审最后一句话”的阶段。它必须进入轨迹,进入动作,进入训练,也进入运行时。

这正是 AgentDoG 1.5 最值得关注的地方。

它代表的不是一次普通版本更新,而是 Agent 安全从轨迹诊断走向在线治理的一次推进。

同专题推荐

查看专题