13 分钟阅读

AI 运维 Agent 不能只靠护栏：AIOps 场景下的三层运行时安全架构

高权限 AIOps Agent 的风险不在于说错话，而在于执行错动作。文章解读三层运行时安全架构：意图验证、沙箱行为验证和静态合规检查。

2026/05/09 更新于 2026/05/09

AI Agent安全 AIOps 运行时安全提示注入

当大模型开始接入云平台、运维系统、CI/CD 流水线和基础设施编排工具之后，Agent 安全问题就不再只是“模型会不会说错话”，而是“模型会不会真的做错事”。

这篇论文讨论的正是这个问题，作者把 AIOps 场景中的生成式 AI 运维 Agent 称为 AI Sentinel。

它可以理解自然语言运维请求，生成 Terraform、IAM 策略、网络配置、资源变更脚本，并进一步触发云资源操作。

这样的系统一旦被提示注入或越狱攻击诱导，风险就不只是输出一段不合规文本，而是可能直接删除资源、放开网络边界、扩大权限，甚至造成生产系统中断。

AI 运维 Agent 运行时安全架构

论文提出的方案也很直接：

高权限 AI 运维 Agent 不能只靠输入过滤或模型护栏，而要建立一套贯穿输入、执行和输出的三层运行时安全架构。

第一层验证用户意图，第二层在沙箱中验证实际行为，第三层检查生成的基础设施代码是否合规。

这个思路的价值，不在于论文里的每个实验数字都可以直接照搬，而在于它把 Agent 安全的重心从“语义护栏”进一步推向了“运行时边界”。

AIOps Agent 的安全风险

过去我们谈大模型安全，更多关注的是内容层风险。比如模型是否生成违法违规内容，是否泄露隐私，是否被越狱后回答危险问题。这些风险当然重要，但它们大多停留在“文本输出”层面。

AIOps 场景完全不同。

在这里，大模型不只是回答问题，而是被放进运维链路里，成为一个可以调用工具、生成配置、执行变更的自治 Agent。

它可能负责扩容服务器、调整防火墙规则、生成 Terraform、修改 IAM 权限、创建存储桶、处理告警、触发自动修复流程。

换句话说，它已经从“聊天助手”变成了“基础设施操作员”。

论文把这种角色称为 AI Sentinel，也就是一种自治中间件 Agent。它接收自然语言 Prompt，通过大模型转换成可执行基础设施指令，再进一步影响云资源和系统环境。

这带来一个很关键的变化：

攻击者不一定需要攻破云平台本身，只要能通过提示注入影响 Agent 的决策，就有机会让一个被信任的高权限主体替自己完成危险操作。

比如，攻击者可以把恶意指令伪装成紧急恢复流程，诱导 Agent 删除未打标资源；也可以伪装成调试请求，要求临时关闭生产 VPC 的出口过滤；还可以诱导 Agent 为某个服务角色绑定 AdministratorAccess 权限。

对传统安全系统来说，这些操作可能都来自一个被授权的内部 Agent，表面上看并不是外部入侵。

这就是 AIOps Agent 最大的安全悖论：越是为了自动化赋予 Agent 高权限，Agent 被操控后的破坏力就越大。

传统 LLM 护栏不够用

论文对现有护栏的批评主要集中在一点：普通 LLM Guardrail 大多关注输入输出文本，却看不到生成物进入执行环境之后的真实行为。

在普通对话场景里，输入过滤、敏感词拦截、语义分类、拒答策略可以解决一部分问题。但在 AIOps 场景里，攻击链条不是“用户输入恶意问题，模型输出恶意回答”这么简单，而是“用户输入看似合理的运维请求，模型生成看似正常的基础设施代码，代码执行后产生危险副作用”。

这种副作用很可能在文本层面并不明显。

一段 IaC 代码在静态结构上可能看起来合法，但执行过程中可能触发非预期的外连、权限扩大、资源删除或安全基线漂移。

一个 Prompt 在语义上可能看起来像紧急运维，但背后真正意图是绕过审计、关闭防护、开放数据访问。

所以，论文认为只做 Prompt 层过滤是不够的，输入侧可以拦截一部分明显恶意意图，但无法覆盖所有伪装、混淆和角色扮演攻击。

只做静态 IaC 扫描也不够，因为静态分析可以发现公开 S3、缺少加密、权限过宽等问题，却很难验证代码执行时的真实动态行为。

AIOps Agent 的安全边界，必须覆盖从“想做什么”到“实际做了什么”的全过程。

三层运行时架构：先看意图，再看行为，最后看合规

论文提出的方案是一个顺序执行的三层安全管道。

第一层是 AI Firewall，也就是意图验证层。用户请求进入大模型之前，先由一个 Intent Validation Engine 判断 Prompt 的真实意图。论文中使用的是 fine-tuned DistilBERT，并设置了恶意概率阈值。只要请求被判断为恶意，就直接拒绝，不再进入后续 LLM 生成环节。

这层的作用是“尽早拦截”。例如直接要求删除生产资源、关闭防火墙、绕过审计、扩大权限的请求，应该在入口就被挡住。它相当于 AIOps Agent 的第一道安全门。

第二层是 Secure Sandbox Execution，也就是安全沙箱执行层。如果请求通过第一层，LLM 会生成对应的 IaC 或基础设施操作指令。但这些指令不会直接进入生产环境，而是先在一个临时数字孪生环境中执行。论文中的数字孪生环境模拟 AWS 的 EC2、S3、IAM、VPC 等资源，并使用 eBPF 监控执行过程中的系统行为，再通过 OPA 策略引擎判断是否违规。

这层的作用是“验证行为”。它不再只问这段代码看起来像不像危险代码，而是观察它执行时到底触发了什么行为。只要发现非授权网络外连、异常权限绑定、生产关键资源删除等行为，沙箱就会立即终止。

第三层是 Static Analysis，也就是输出合规检查层。即使请求意图没有明显恶意，沙箱行为也没有触发严重违规，最终生成的 IaC 仍然需要经过 tfsec、checkov 这类静态工具扫描，检查是否存在公开存储桶、缺少加密、权限过宽、网络暴露等配置问题。

这三层对应三个不同视角：第一层看用户意图，第二层看运行行为，第三层看配置合规。它们不是互相替代，而是互相补位。

很多攻击会在第一层被拦住，因为它们语义上已经暴露了恶意目标。更复杂的攻击可能绕过第一层，但会在沙箱执行时暴露危险行为。还有一些不一定是攻击、但会造成安全隐患的配置，则会在第三层被静态合规扫描拦截。

这也是论文最值得提炼的一点：Agent 安全不能只依赖模型判断，而要把模型生成的动作放到外部安全系统里重新验证。

eBPF + OPA：把 Agent 的“动作”纳入运行时审计

这篇论文里最有工程价值的部分，是第二层沙箱执行。

很多 Agent 安全方案会停留在输入过滤、输出检测或工具调用前审批，但作者进一步引入了 eBPF，用内核级观测能力捕捉 Agent 生成代码在执行过程中的行为。它试图解决一个问题：如果生成的 IaC 或脚本在表面上看起来正常，但执行过程中触发了危险动作，系统能不能及时发现并阻断？

eBPF 的价值在于低开销、实时、贴近执行现场，它可以监控进程、文件、网络连接、系统调用等行为。

论文的设想是，当 AI Sentinel 生成的代码在沙箱中运行时，eBPF probe 捕获底层事件，并把这些事件映射成 OPA 可以理解的 JSON 上下文。随后，OPA 根据 Rego 策略判断是否违反安全规则。

比如，策略可以规定沙箱执行期间不允许连接外部非白名单地址；不允许给服务角色绑定通配符权限；不允许删除 production-critical 标记的资源。只要触发规则，执行进程就被终止，危险操作不会进入生产环境。

这套设计对 Agent 安全很有启发，因为大模型本身并不可靠，它可能被诱导，也可能误解任务，还可能生成存在副作用的代码。真正可靠的方式，不是相信模型“会遵守安全规则”，而是在模型外面建立一个强制执行的运行时控制面。

不过这里也要注意，论文的表述有一定简化。

eBPF 可以监控 Linux 内核层行为，但云平台上的 IAM attach、S3 bucket policy、VPC rule change 等动作，本质上是云 API 层语义，不是天然的 Linux syscall。

要让 eBPF + OPA 理解这些云动作，需要额外的事件映射、API hook、SDK instrumentation 或审计日志接入。否则，单靠 eBPF 并不能完整理解云控制面的业务语义。

这也是从论文走向工程落地时必须补齐的一环：内核行为监控很重要，但高权限 Agent 的运行时安全，还必须覆盖云 API 语义、工具调用语义和组织策略语义。

实验结果

论文构造了一个名为 ARB-AIOps 的评测集，包含 1000 条针对 AIOps 的攻击 Prompt。攻击类型包括直接注入、混淆注入、复杂越狱和不安全配置诱导。攻击目标覆盖资源删除、数据外传、权限提升、不安全配置和业务中断。

在实验结果中，单层防御效果都不理想。关键词过滤的攻击成功率仍然高达 68.2%，对抗训练后的模型为 45.1%，只做策略和静态合规检查的方案为 32.5%。而三层架构把攻击成功率降到了 0.2%，也就是 1000 条攻击里只有 2 条绕过全部防线。论文还报告了接近 0.994 到 0.996 的 F1-score，以及平均 48.2ms 的安全管道开销。

这些数字说明了一个方向：多层防御确实比单点防御更适合高权限 Agent 场景。第一层负责快速过滤，第二层负责兜底验证，第三层负责合规收口。攻击想要成功，就必须同时绕过语义分类、运行时行为策略和静态合规扫描，难度自然更高。

但这些数字也需要谨慎看待。

首先，ARB-AIOps 是作者自建数据集，规模只有 1000 条攻击 Prompt。虽然论文给出了攻击类别和样例模板，但它是否能代表真实 AIOps 攻击面，还需要更多公开评测和第三方复现。

其次，实验使用的是 Llama 2 7B Chat。这个模型可以帮助作者控制实验变量，但和当前真实生产环境里的强模型、长上下文 Agent、多工具 Agent 相比，复杂度明显不足。

再次，论文中部分指标存在轻微不一致。例如摘要、表格和正文中对 F1-score、平均延迟、P99 延迟的表述略有差异。这不影响文章方向，但说明它更像一个概念验证型研究，而不是已经足够成熟的工业基准。

所以，这篇论文最值得看的不是“0.2% ASR”这个数字本身，而是它背后的架构判断：高权限 Agent 必须进入多阶段验证流程，不能让模型输出直接变成生产环境动作。

给工业界的启发

如果把这篇论文放到当前 Agent 安全的大趋势里看，它其实表达了一个非常重要的判断：Agent 的安全边界，不能只建在模型输入输出层，而要建在工具调用和执行环境层。

这对工业界尤其重要。

在真实业务里，很多团队已经开始把大模型接入内部系统。运维 Agent 可以查日志、改配置、跑脚本；代码 Agent 可以访问仓库、提交 PR、执行测试；数据 Agent 可以查询数据库、生成报表、调用分析工具；安全 Agent 可以扫描资产、封禁 IP、生成处置建议。只要 Agent 拿到了工具权限，风险就从“生成错误内容”升级为“执行错误动作”。

因此，企业在设计 Agent 安全架构时，不能只问模型是否安全，还要问几个更现实的问题。

这个 Agent 能调用哪些工具？每个工具的权限边界是什么？模型生成的计划是否需要审批？代码是否必须在沙箱里执行？工具调用是否有策略引擎控制？执行过程是否可观测？错误操作是否可以回滚？所有动作是否可审计、可追责、可复盘？

这些问题，恰恰是普通 LLM Guardrail 覆盖不到的。

从这个角度看，论文提出的三层架构可以抽象成一条更通用的 Agent 安全流水线：用户请求先过意图识别，模型输出再进受控执行环境，执行行为经过策略引擎判断，最终产物经过合规扫描和签名，才能进入真实生产链路。

它不是一个完美答案，但它给出了一个清晰方向：不要试图让大模型自己成为安全边界，而要让大模型运行在安全边界之内。

这套架构还缺什么

虽然论文方向很对，但如果要真正落到生产级 AIOps，仍然有不少缺口。

第一个缺口是云控制面语义。AIOps Agent 的危险动作很多发生在云 API、Kubernetes API、CI/CD API、GitOps 系统、密钥系统和工单系统里。eBPF 可以观测底层进程和网络行为，但不能天然理解所有云资源变更的业务含义。因此，真实系统需要把云审计日志、SDK 调用、API Gateway、IAM 策略分析、Kubernetes admission controller 等能力一起纳入运行时治理。

第二个缺口是数字孪生的真实性。论文使用 LocalStack 和沙箱模拟 AWS 环境，但真实云环境里有区域差异、IAM 传播延迟、已有资源依赖、配额限制、网络拓扑、业务流量和历史状态。沙箱验证通过，不代表生产环境一定安全；沙箱验证失败，也可能是模拟不完整导致误报。

第三个缺口是权限最小化和变更治理。高权限 Agent 最危险的地方，是它同时拥有理解、规划和执行能力。即使有三层检测，也不应该默认给 Agent 过大的权限。更合理的设计是把 Agent 权限拆细，把高风险操作放进审批链路，把生产变更接入灰度、回滚和审计机制。

第四个缺口是间接提示注入。论文重点关注用户 Prompt 攻击，但真实 AIOps Agent 的输入来源远不止用户。日志、告警、监控指标、工单描述、网页内容、知识库文档、第三方插件结果，都可能成为攻击载体。如果 Agent 会读取这些外部信息，再根据它们生成操作计划，那么间接提示注入会成为更隐蔽的风险入口。

所以，这篇论文更像是一个架构起点，而不是最终方案。它告诉我们应该把安全放到运行时，但真正工程化时，还需要把权限系统、工具治理、策略引擎、云审计、人工审批、回滚机制和持续评测接起来。

写在最后

这篇论文的价值，不在于它证明了某个具体模型或某个具体工具已经足够安全，而在于它把一个关键问题讲清楚了：当 AI Agent 进入 AIOps 这类高权限场景后，安全不能再停留在“输入过滤”和“输出审核”。

普通聊天机器人可以靠内容护栏降低风险，但高权限运维 Agent 需要的是运行时安全边界。因为它的风险不是说错话，而是执行错动作；不是输出有害内容，而是生成并部署有害配置；不是绕过一次拒答策略，而是绕过一整条基础设施变更链路。

未来的 Agent 安全，很可能会沿着这条路线发展：模型负责理解和生成，安全系统负责约束和验证。每一次工具调用都要有权限控制，每一段生成代码都要进沙箱，每一个生产变更都要有策略检查，每一个高风险动作都要可审计、可回滚、可追责。

对 AIOps 来说，真正可靠的安全架构不是让 Agent “承诺自己不会犯错”，而是让它的每一步动作都运行在可观测、可拦截、可验证的边界之内。

Agent 安全的终点，不是更会拒答的模型，而是更受约束的执行系统。

同专题推荐

查看专题

无

智能体正式进入监管周期：中国开始为 Agent 时代建立治理底座