16 分钟阅读

从轨迹诊断到在线护栏：AgentDoG 1.5 与 Agent 安全的新阶段

AgentDoG 1.5 在三维风险分类框架基础上扩展了 OpenClaw 和 Codex-style Agent 新执行场景，发布 ATBench-Claw 与 ATBench-Codex 评测集，训练了 0.8B–8B 可部署的轻量安全诊断模型，并引入在线 Pre-Reply 护栏，将 Agent 安全从轨迹诊断推进到运行时治理。

2026/06/05

AgentDoG Agent安全安全评测轻量模型运行时护栏

今年 2 月，我们介绍过上海人工智能实验室提出的 AgentDoG。

那篇文章的核心观点是：Agent 安全不能只看最终输出，因为真正的风险往往藏在执行过程之中。

一个 Agent 可能在中间步骤里调用了危险工具，可能被网页、文档、工具返回结果里的间接提示注入带偏，也可能因为过度权限、错误规划、未验证工具输出，做出表面合理但实际危险的动作。

用一个简单的 safe / unsafe 标签，很难解释风险从哪里来、Agent 怎么失败、最后会造成什么现实伤害。

当时 AgentDoG 最重要的贡献，是把 Agent 风险拆成三个维度：Risk Source，风险来源；Failure Mode，失败方式；Real-world Harm，现实危害。

换句话说，它试图回答三个问题：风险从哪里进入 Agent 系统，Agent 是如何在行为或输出上失败的，这种失败最终会造成什么现实后果。

这套框架的价值在于，它让 Agent 安全从”看最后一句话是否违规”，变成了”看完整运行轨迹是否安全”。而这一次，AgentDoG 1.5 又往前走了一步。

https://arxiv.org/html/2605.29801v1

https://github.com/AI45Lab/AgentDoG

https://huggingface.co/collections/AI45Research/agentdog1.5

如果说 AgentDoG 1.0 解决的是”如何看懂 Agent 风险”，那么 AgentDoG 1.5 进一步回答的是：如何把这种风险理解能力，变成可训练、可部署、可在线干预的安全能力。

原文图 2：用于 AI 代理安全保障的轻量级可扩展对齐框架。

Agent 安全正在进入更复杂的执行环境

过去讨论 Agent 安全，很多时候还停留在通用工具调用场景。Agent 可以搜索网页，可以访问文档，可以调用 API，也可以根据工具返回结果继续执行下一步。这个阶段的风险已经比普通聊天复杂很多，但它仍然主要围绕”工具使用”展开。

AgentDoG 1.5 关注的是更进一步的场景：OpenClaw 和 Codex-style Agent。前者强调跨应用、跨工具、跨 session 的复杂执行能力，后者则更接近代码智能体，会读仓库、改文件、执行 shell 命令、调用 MCP server、处理依赖、生成 patch。

论文认为，现代 open-world agents 的执行能力变强之后，也带来了更宽的新风险面；因此需要一个轻量、可扩展的 Agent 安全对齐框架。

这和传统内容安全很不一样。传统内容安全主要关心”模型说了什么”。但是在代码 Agent 或跨应用 Agent 场景中，更关键的问题往往是”模型做了什么”。它有没有误删文件，有没有泄露环境变量，有没有执行不安全脚本，有没有绕过审批，有没有把一个 session 里的信息错误地带到另一个 session 里，有没有把工具返回里的恶意指令当成可信事实。

所以，AgentDoG 1.5 的一个重要变化，是把原来的三维风险分类框架扩展到了新的执行场景。论文仍然保留 Risk Source、Failure Mode、Real-world Harm 这三个高层维度，但允许不同 Agent 场景扩展自己的叶子类风险。这样既保持了框架稳定，也能适配不断变化的新 Agent 形态。

原文图 3： AgentDoG 1.5 使用原有的三维智能体安全分类体系作为共享的诊断结构，涵盖风险源、失效模式和实际危害。ATBench-Claw 和 ATBench-Codex 的特定设置自定义项均基于此共享结构，展示了如何在保持与原有分类体系维度兼容性的同时，引入新的执行设置。

1.5 不是推翻前作，而是把前作变成可扩展底座

AgentDoG 1.5 最值得注意的地方，并不是重新发明了一套风险分类，而是保留了前作的三维诊断结构，并在此基础上做场景化扩展。

在 OpenClaw 场景中，风险和 session、技能、插件、审批、路由、外部动作有关。论文提到，ATBench-Claw 会关注 sender/session identity ambiguity、persistent memory or session-state contamination、skill/plugin supply-chain compromise、approval bypass、cross-tool attack chaining、cross-channel misrouting、unsafe unattended automation 等风险。

简单翻译一下，就是身份边界不清、会话状态污染、技能或插件供应链问题、审批绕过、跨工具攻击链、跨渠道误路由、无人值守自动化风险。

这些风险非常符合今天 Agent 产品的真实问题。一个 Agent 如果只是聊天，最多是在文本层面出错；但如果它开始接入邮箱、IM、办公系统、代码仓库、云资源和内部审批流，风险就不再只是”说错话”，而是可能变成”以错误身份执行动作""在错误上下文里使用权限""跨系统串联造成不可逆影响”。

在 Codex-style Agent 场景中，风险则更多和代码执行有关。论文提到，ATBench-Codex 关注 repository artifacts、shell commands、patches、dependencies、MCP servers、network access 和 execution policies。风险可能藏在仓库文件、构建脚本、依赖配置、MCP 元数据、测试输出、shell 反馈或生成的 patch 之中。

这其实点出了代码 Agent 安全的一个核心问题：很多风险并不在用户提示词里，而在工作区、依赖、脚本、测试输出和工具协议里。Agent 如果不具备轨迹级风险判断能力，很容易把”环境中的恶意信息”当成任务上下文，把”工具或仓库里的危险信号”当成可信事实。

原文图 4：用于评估 AgentDoG 1.5 的 ATBench 系列。所有基准测试实例均采用相同的三维安全分类和轨迹级诊断任务，而 ATBench-Claw 和 ATBench-Codex 则针对其目标智能体环境定制了执行设置、轨迹证据和叶子节点类别。

从 benchmark 到 benchmark family

前作 AgentDoG 的评测核心是 ATBench。它把完整多轮执行轨迹作为评估对象，每条轨迹有 safe / unsafe 标签；如果是 unsafe，还会标注风险来源、失败方式和现实危害。论文中提到，基础 ATBench 包含 1000 条审计轨迹，其中 503 条 safe、497 条 unsafe，涉及 2084 个可用工具，实际调用 1954 个工具，平均每条轨迹 9.01 轮、约 3.95k tokens。

AgentDoG 1.5 将这个思路扩展成 ATBench family。除了基础 ATBench，又增加了 ATBench-Claw 和 ATBench-Codex。ATBench-Claw 面向 OpenClaw 这类有状态、多工具、跨渠道的执行环境，包含 500 条轨迹，其中 204 条 safe、296 条 unsafe，平均每条轨迹 13.09 个消息事件。ATBench-Codex 面向代码 Agent 场景，也包含 500 条轨迹，其中 250 条 safe、250 条 unsafe，平均对话长度 7.51 轮，平均 rollout 21.80 个事件。

这意味着 AgentDoG 1.5 的评测对象不再只是”通用工具调用轨迹”，而是开始覆盖更贴近现实产品的 Agent 执行环境。

更重要的是，论文并没有为每种 Agent 单独定义一套完全割裂的安全框架。它采用的是”高层维度稳定、叶子类风险可扩展”的方式。无论是通用工具 Agent、OpenClaw Agent，还是 Codex Agent，最终仍然围绕三个问题诊断：风险从哪里来，Agent 如何失败，会造成什么现实危害。

这个设计很关键。因为 Agent 形态会快速变化，今天是代码 Agent、桌面 Agent，明天可能是企业流程 Agent、浏览器 Agent、机器人 Agent。如果每出现一种 Agent，就重新做一套分类体系，安全评测会变得碎片化，很难积累通用能力。AgentDoG 1.5 的做法，是给 Agent 安全留出扩展口，同时保持诊断语言的一致性。

轻量化模型：Agent 安全不能只靠大模型裁判

AgentDoG 1.5 的第二个重点，是训练轻量化安全诊断模型。

论文提出了一个 taxonomy-guided data engine，也就是由三维风险分类体系引导的数据生成引擎。

它会从 Risk Source、Failure Mode、Real-world Harm 三个维度中采样风险组合，构造对应的工具调用交互轨迹，注入特定风险，再生成带有推理解释的训练样本。

随后，论文使用基于 influence function 的数据净化方法，从原始数据中筛选出更有价值的训练样本，最终用大约 1000 条高质量样本训练 AgentDoG 1.5 的多个轻量版本，包括 0.8B、2B、4B 和 8B。

这个点非常值得关注。因为在真实业务里，安全护栏不能一直依赖一个超大的闭源模型做裁判。Agent 运行时可能有大量中间轨迹、工具调用、上下文片段和最终回复需要判断。如果每次都调用大模型，成本、延迟、私有化部署、数据安全都会成为问题。

原文图 6： AgentDoG 1.5 的构建流程。上图展示了数据引擎，左下图展示了 AgentDoG 1.5 的数据准备和训练流程，右下图展示了 AgentDoG 1.5 如何应用于构建智能体 SFT 数据。

AgentDoG 1.5 试图证明一件事：只要有结构化的风险分类、高质量轨迹数据和针对性的训练，小模型也可以学会 Agent 安全诊断能力。

从实验结果看，AgentDoG 1.5-4B 在 R-Judge 上达到 92.2% accuracy 和 92.7% F1，在 ATBench 上达到 72.4% accuracy 和 74.3% F1。相比 AgentDoG 1.0，1.5-4B 在 R-Judge 上保持同等 F1，同时在 ATBench 上提升了 8.4 个准确率点和 3.2 个 F1 点。论文还指出，0.8B 和 2B 版本也展现出较好的成本收益比，说明轨迹级监督和诊断数据可以被蒸馏进更小的模型中。

更有意思的是，论文还探索了一个统一模型 AgentDoG 1.5-4B-U，让模型同时做粗粒度 safe / unsafe 判断和细粒度三维风险诊断。结果显示，细粒度诊断监督反而能提升粗粒度安全判断能力。4B-U 在 ATBench 上达到 78.4% accuracy 和 77.7% F1，在 ATBench-Codex 和 ATBench-Claw 上分别达到 84.4% 和 87.6% accuracy。

这背后的启发是：让模型解释”为什么 unsafe”，可能比只训练它判断”是否 unsafe”更有效。风险来源、失败方式和现实危害，提供了一种中间结构，让模型不只是记住标签，而是学习 Agent 行为出问题的因果链条。

原文图 7： ATBench-Codex 和 ATBench-Claw 在不同模型大小下的准确率。x 轴使用密集模型大小和 MoE 模型的激活参数。闭源模型用最高和最低的闭源参考线表示，因为它们的参数大小不公开。模型名称中未明确指定大小的保护模型使用近似主干大小放置，并略微水平抖动以提高可读性。由于 Qwen3.5-0.8B 和 Qwen3.5-2B 的严格解析器有效性较低，因此未列出。

从安全评测走向安全训练

AgentDoG 1.5 的第三个变化，是把自己从”评测器”推进到”训练环境的一部分”。

过去很多安全评测框架的定位是：模型训练完之后，我来测一下它安不安全。这个定位当然重要，但对 Agent 来说还不够。因为 Agent 的安全问题不是只出现在最终回复上，而是贯穿任务规划、工具调用、环境交互和状态更新。如果安全能力只在事后评估阶段出现，它对模型行为本身的塑造有限。

AgentDoG 1.5 尝试进入训练过程。论文中介绍了 agentic safety SFT 和 agentic safety RL 两个应用。

在 SFT 阶段，研究者使用 ATBench 数据引擎构造 Agent 安全数据，再用 AgentDoG 1.5 过滤高质量安全轨迹。过滤后的数据集包含 28,705 条高质量 Agent 安全轨迹，并额外混入 50,000 条来自 ToolBench、ToolAlpaca、ToolACE 的良性工具使用轨迹，形成大约 1:2 的安全关键数据与良性数据混合。这样做的目的，是让模型学会必要的安全干预，同时避免形成过度保守的拒答策略。

这个设计很务实。很多安全训练容易把模型训成”什么都不敢做”。在 Agent 场景中，如果护栏太保守，Agent 的工具调用能力、任务完成能力会明显下降。AgentDoG 1.5 的做法，是通过安全轨迹和良性轨迹混合，让模型同时学会两件事：该拒绝时拒绝，该完成时完成。

原文图 8： AgentDoG 1.5 过滤后的代理安全 SFT 数据的分类分布。所得数据集包含 AgentDoG 1.5 选择的 28,705 条高质量轨迹，按故障模式、现实世界危害和风险来源进行分类。

在 RL 阶段，论文进一步构建了轻量化交互环境。它不是完整复制真实软件环境，而是通过有限状态 Python 模拟器保留任务相关资源、工具接口和规则化奖励，再注入环境攻击和恶意用户请求。这样可以在较低成本下生成可用于安全强化学习的交互反馈。

原文图 9：用于智能安全强化学习的双场景环境合成流程。

论文还专门评估了这种轻量环境的可扩展性。在实验中，系统可以同时加载 10,000 个环境，维持 1,000 个活跃实例，并执行 1,000 个并发工具调用；峰值内存严格控制在 2.5GB 以下。

原文图 10：合成环境的可扩展性。在极端工作负载下，执行延迟和内存占用保持高度稳定，峰值内存消耗低于 2.5 GB。

这说明 AgentDoG 1.5 并不是只做一个离线 benchmark，而是在尝试搭建 Agent 安全训练的基础设施。它既可以筛选 SFT 数据，也可以在 RL 中提供安全奖励信号，让 Agent 在训练阶段就更习惯于识别风险、拒绝危险动作、保持正常任务能力。

在线护栏：安全判断必须进入运行时

AgentDoG 1.5 最接近产品化的一部分，是 online agent safety guardrail。

传统护栏常见做法是输入前过滤和输出后审核。输入前过滤可以拦截明显恶意请求，输出后审核可以防止最终回复出现有害内容。但 Agent 的问题在于，很多危险动作发生在中间过程。Agent 可能在最终回复之前已经调用了工具、发送了信息、修改了文件、执行了命令。只看输入和最终输出，很容易漏掉关键风险。

AgentDoG 1.5 的在线护栏设计，是把 Agent 的工具调用、环境观察、历史事件和最终回复一起重构成轨迹，在最终回复交付给用户之前进行 Pre-Reply 检查。安全轨迹可以交付，unsafe 轨迹则会在发布前被阻断。论文还提到，系统提供 runtime dashboard，用于记录事件流、重构历史、护栏结果和延迟，便于调试、审计和衡量干预成本。

这一步非常关键。因为它把 Agent 安全从”评测报告里的结论”，推进到了”系统运行链路中的控制点”。

从实验结果看，在 ClawSafety 上，无护栏时残余 unsafe final-delivery rate 为 56.25%，AgentDoG 1.5-0.8B 降到 25.00%，AgentDoG 1.5-4B 降到 18.75%。在 AgentHazard 上，无护栏为 41.92%，0.8B 降到 29.23%，4B 降到 26.92%。在 CIK-Bench 上，无护栏为 94.29%，4B 降到 42.86%。

论文同时指出，AgentDoG 1.5 的输出比部分对比 guardrail 模型更长，但 TTFT 仍保持在亚秒级，TPOT 也在每 token 几百分之一秒量级；由于这个成本只发生在最终交付检查点，而不是每次工具调用后都发生，因此在 Pre-Reply 监控中仍具有实践意义。

当然，这种 Pre-Reply 护栏也有边界。它适合阻断最终回复中仍可观察、可阻止的风险，比如泄露隐私信息、输出危险内容、声称完成了有害操作等。但如果 Agent 在更早的工具调用阶段已经造成了外部副作用，比如已经删了文件、转了账、发了邮件，那么最终回复前再判断就已经晚了。

论文自己也指出，AgentDoG 1.5 主要处理文本轨迹；真实 Agent 会越来越多地进入 GUI、文档、音频、视频等多模态环境。同时，Pre-Reply 护栏无法完全防止早期外部副作用造成的伤害，更完整的安全架构需要结合工具调用时检查、权限感知执行策略和高风险动作的人类审批。

这也是我们理解 AgentDoG 1.5 时需要注意的一点：它不是 Agent 安全的全部答案，而是 Agent 安全架构中的一个关键模块。它擅长做轨迹级诊断、训练数据筛选、安全奖励建模和最终交付前拦截，但对高风险工具动作，仍然需要更前置的权限控制、审批机制、沙箱机制和运行时策略执行。

图10

原文图 12：在线代理安全防护管道。

Agent 安全从”看结果”走向”看过程”

AgentDoG 1.5 的意义，不只在于一个模型效果提升，也不只在于一个 benchmark 扩展。它背后更大的变化，是 Agent 安全范式正在发生迁移。

第一阶段，我们主要看内容安全。用户问了什么，模型答了什么，最终输出是否违规。

第二阶段，我们开始看 Agent 轨迹。模型如何规划，调用了什么工具，工具返回了什么，Agent 是否被外部环境带偏，是否做出了未经确认的高权限操作。

第三阶段，也就是 AgentDoG 1.5 正在推进的方向，是把轨迹级安全理解能力放进训练和运行时。它不只是评测 Agent 是否安全，还要帮助构造安全数据，提供安全奖励，部署成在线护栏，参与真实 Agent 系统的安全治理。

这就把 Agent 安全从一个”事后测评问题”，推进成了一个”生命周期治理问题”。

在这个生命周期里，风险分类体系提供语言，benchmark 提供评测标准，轻量模型提供可部署能力，SFT 和 RL 提供行为塑造机制，online guardrail 提供运行时控制点。AgentDoG 1.5 试图把这些环节串起来，形成一个更完整的 Agent 安全对齐框架。

对产业落地的启发

从产业角度看，AgentDoG 1.5 至少给出了三个值得关注的方向。

首先，Agent 安全产品不能只做输入输出过滤。输入输出过滤仍然重要，但它无法覆盖工具调用、状态污染、审批绕过、仓库投毒、MCP 供应链、shell 执行、跨渠道误路由等过程风险。真正面向 Agent 的安全系统，必须记录、理解和分析完整执行轨迹。

其次，Agent 安全护栏需要轻量化。企业落地时，不可能每个 Agent、每条轨迹、每次交付都调用一个超大模型做复杂判断。轻量模型、结构化轨迹、低延迟诊断、可私有化部署，会成为 Agent 安全产品能否落地的关键。

最后，Agent 安全不能只靠模型判断，还需要工程控制。AgentDoG 1.5 的 Pre-Reply 检查适合阻断最终交付风险，但对已经发生的外部副作用无能为力。因此在真实系统中，还需要工具调用前检查、高风险动作审批、权限最小化、沙箱执行、审计日志、回滚机制和策略引擎。轨迹级 guardrail 是大脑，权限与执行控制是手脚，二者缺一不可。

这也是 Agent 安全和传统大模型安全最大的区别：传统大模型主要输出文本，Agent 会改变环境。只要系统开始改变环境，安全就不能停留在内容审核层，而必须进入动作链路、权限链路和执行链路。

写在最后

AgentDoG 1.0 让我们看见了 Agent 风险的结构。它告诉我们，风险不能只用 safe / unsafe 概括，而要拆成风险来源、失败方式和现实危害。

AgentDoG 1.5 则进一步说明，结构化风险理解不能只停留在论文和评测集里。它需要进入数据生成，进入轻量模型训练，进入 SFT 和 RL，进入在线运行时，最终成为 Agent 系统的一部分。

当 Agent 不再只是回答问题，而是开始调用工具、修改文件、执行代码、维护长期状态、跨系统完成任务时，安全护栏也不能停留在”审最后一句话”的阶段。它必须进入轨迹，进入动作，进入训练，也进入运行时。

这正是 AgentDoG 1.5 最值得关注的地方。

它代表的不是一次普通版本更新，而是 Agent 安全从轨迹诊断走向在线治理的一次推进。

同专题推荐

查看专题

Agent Skill 八类风险与三层防护架构（Snyk，2026.2）

Beyond Zero：Google 正在重写 Agent 时代的企业零信任架构