AI Agent 的零信任框架:五大风险、三层架构与八阶段实施流程(Anthropic,2026.5)
2026 年 5 月,Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书:《Zero Trust for AI Agents》。
模安局 专题
关注安全防护、对齐技术与风险缓释方案的工程化应用。
2026 年 5 月,Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书:《Zero Trust for AI Agents》。
这是「Agent IAM 系列」第一篇。本文讨论的是:为什么 Agent 不能再被当作普通服务账号,企业 IAM 正在进入自治身份治理时代。
自迭代训练正成为大语言模型能力进化的核心范式。然而,当模型开始通过自我生成的数据或信号进行递归训练时,一种被研究者称为“对齐衰减”的深层风险浮出水面——模型不再向人类意图收敛,反而在迭代中逐渐偏离。
过去一年,我们讨论 Agent 安全时,最常见的关键词是 Prompt Injection、越狱、工具滥用、MCP 漏洞、供应链投毒和权限失控。
过去一年,Agent 安全讨论里最常出现的词,可能还是 Prompt Injection。
ContextualJailbreak 论文指出,大模型越狱正在从单句 Prompt 攻击演化为多轮上下文诱导。攻击者通过模拟对话铺垫逐步改变模型语境,使传统输入审核与单轮红队测试暴露出明显盲区。
文章解读 Architecture Matters for Multi-Agent Security,指出多 Agent 系统的风险会从单模型能力转移到组织结构、通信拓扑和上下文可见性,局部合理的协作链条可能导致整体安全失守。
AgentVisor 把 Agent 视为不可信 Guest,在工具调用前加入语义监控层,通过拦截、STI 审计和语义异常恢复,将提示注入防御从内容识别转向运行时控制流治理。
高权限 AIOps Agent 的风险不在于说错话,而在于执行错动作。文章解读三层运行时安全架构:意图验证、沙箱行为验证和静态合规检查。
论文 LASM 提出七层攻击面模型与四类时间性分类,重构 Agent 安全的分析框架:从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层,揭示 Agent 安全本质是分布式系统安全问题
MCP 解决了 Agent 接入工具和资源的标准化问题,但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互,但在实际落地中,很多安全责任被交给应用开发者和宿主应用自行处理。 结果就是,MCP Server 往往以“默认可信”的方式运行。 这和移动…
这两天,一篇题为 《When the Agent Is the Adversary》 的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入,也不是常见的越狱绕过,而是一个更让人不安的问题:当高能力 Agent 不再只是“被保护对象”,而开始成为“主动对手”时,我们今天熟悉的那些安全边界,还…
常见的大模型安全评测,更像是一种“项目制”的工作:安全团队手工准备一批攻击样本,跑一轮测试,整理几张截图,再给出一份结论。
过去一段时间,AI 安全圈里最值得关注的消息,不是某个模型又在榜单上刷了新分数,而是 Anthropic 把一个更强的模型“按住了”。
过去,我们更习惯把大模型的风险理解为“这一轮输入有没有问题”“这一轮输出会不会越界”。但有了长期记忆之后,风险结构发生了变化。恶意内容不一定在当场触发,也不一定在同一轮任务里显现出来。它可以先悄悄进入记忆,在几天后、另一个会话里、。
大模型 Agent 的安全,这两年讨论得越来越多,但大多数工作其实都还停留在“外面加护栏”的阶段。
过去我们谈 AI 隐私风险,通常关注的是用户有没有把身份证、手机号、住址、病历、银行卡号、账号密码发给大模型。但一篇来自 ETH Zurich 的论文提醒我们,真正麻烦的地方可能不止这些显性敏感信息。
像 OpenClaw 这样的自主 Agent,正在把“人类监督下的智能助手”推向“可以独立参与商业活动的机器主体”。与之配套的支付和商业协议也在迅速出现,例如 ERC-8004、AP2、x402、ACP、ERC-8183。
Agent 安全里有一个很容易被忽略的问题:如果一个 Skill 本身提供的能力就不该被 Agent 自动执行呢?
Agent 研究这两年进展很快,但一个更底层的问题其实很少被系统回答:我们到底应该怎样"培养"一个 Agent?
很多时候 Agent 并不是没有遵守规则,而是严格执行了一份写得不够好的规则——PolicyBank 针对的正是这个常被忽略的问题。
很多 Agent 安全问题的根子往往是能力给多了。Aethelgard 提出四层治理框架,让 Agent 只拿到完成任务所需的最小工具集。
当 AI Agent 浏览网页时,原始 HTML 里大量展示层、工程层噪声正在消耗巨额 Token 成本。这篇文章从 SOM 语义对象模型出发,讨论 Agentic Web 时代的输入层架构与安全边界。
Web Agent 在执行任务时天然偏向"完成任务",这会削弱它对外部恶意指令的识别能力。WebAgentGuard 把安全裁决从任务执行中拆开,在 Agent 前面加一道并行运行的守门模型,把提示注入攻击成功率压到接近 0%。
DeepSeek-V4 把百万上下文、低成本推理、开源权重、Agent 能力强化叠在一起,安全风险正在从 query 迁移到 context,从 response 迁移到 action。
介绍 PlanGuard 方案:先在隔离环境生成可信参考计划,再对每次工具调用做两层校验(硬规则+语义意图),从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。
与其反复争论AI像不像人,不如建立一个更清楚的判断框架:横轴是外显心智程度,纵轴是内在主体程度。今天的大模型大概率还没有意识——它们已走到高拟人区,但仍处于低主体区。
当交易成本、协调成本和标准化执行成本被AI大幅压低后,一家典型的软件公司到2036年会长成什么样子?这不是一张裁员表,而是一张组织稀缺性迁移图。
复盘 LiteLLM 恶意 PyPI 发版事件,梳理时间线、注入方式、传播链路、风险评估与应急建议。
企业在选型大模型护栏时,真正需要评估的不是“有没有某个能力”,而是能不能防、拦得准不准、扛不扛流量、能不能长期稳定运营。
基于Nature文章系统分析DeepSeek的内容安全评测框架、数据集构建、判定标准和风控机制,以及多语种和越狱鲁棒性
最近讨论 Agent 安全时,很多人还是习惯从提示注入、越狱、恶意网页、工具滥用这些具体问题切入。
过去谈大模型安全,很多讨论还停留在“输入有没有风险”“输出是否合规”这两个位置。但到了 Agent 场景里,真正危险的地方往往不在模型说了什么,而在模型 调用了什么工具、传了什么参数、完成了什么动作 。
过去谈大模型安全,我们很容易把问题聚焦在“模型会不会乱说”。比如是否会输出违法内容、是否会被越狱、是否会泄露敏感信息。
现在讨论 Agent 安全,已经不能只盯着模型会不会说错话。到了 Agent 场景里,真正危险的瞬间往往发生在工具调用之前。
当 Agent 能力像应用商店一样分发,SKILL.md 不只是一份说明文件,它是语义控制面——攻击者可以在技能被选择、注册、审核的全程实施供应链攻击。
2025年5月,Anthropic宣布了一个令人意外的决定:联合黑石集团(Blackstone)、Hellman & Friedman和高盛(Goldman Sachs),成立一家独立的企业AI服务公司。
过去讨论 Agent 安全,我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。
过去几年,大模型越狱研究大多在回答一个问题:什么样的 prompt 能绕过模型安全机制?
最近看到一篇很有意思的论文,题目叫 《Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain》。
过去评价一个大模型抗越狱能力强不强,很多评测最后都会落到一个数字:ASR,也就是攻击成功率。
一篇新论文揭开了同质化多 Agent 系统的失败机制:正确答案明明出现过,却在讨论中被多数意见吞掉了。
当模型已经给出安全回复,风险却仍然可能出现在“模型输出之后、工具执行之前”
Anthropic 的 Mythos 与 OpenAI 的 GPT-5.5-Cyber 同时把网络安全能力推到前台,说明前沿模型正在从代码助手走向漏洞发现、攻防验证和能力治理的新阶段。
SafeReview 提出一种面向 AI 论文评审系统的攻防共演训练框架,用攻击模型持续生成隐藏提示注入,再用新攻击样本训练防御模型,提升长文档评审场景下的鲁棒性。
Agent 安全不能只盯输入输出,更要盯住执行过程、工具权限和状态变化。
POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块,也需要在模型训练阶段逐步形成,从 Agentic Seeding 到 V-Fold 历史管理机制,探讨了搜索能力如何真正内化进多模态模型。
面对同时包含自然语言指令和可执行脚本的 Agent Skill,SkillSieve 提出静态分诊→结构化语义拆解→多模型陪审团三层流水线,在 400 个标注样本上 F1 达到 0.800,明显优于基线的 0.421。
GPT-image-2的真正升级不是画质更好,而是图像模型开始具备完整的视觉成品生产能力,更会写字排版,把复杂信息包装成值得被相信的内容。图像安全的风险重心正在从深度伪造转向传播欺骗。
论文从理论上证明,对于安全改写型 wrapper defense 来说,连续性、实用性和完备性三者无法同时成立——这正是标题里所谓的不可能三角。
一句看似正常的用户请求,如何被多智能体编排器自动拆解成违反安全策略的执行链路——论文提出的语义意图碎片化(SIF)攻击,揭示了多智能体系统中最隐蔽的计划生成缺口。
本文介绍了SkillAttack自动化红队框架,它通过漏洞分析、并行攻击路径生成和反馈驱动的多轮修正,验证Agent Skill中潜在漏洞的可利用性,揭示了开放Skill生态中真实存在的安全风险。
本文对OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw、ArkClaw六个类Claw智能体系统进行安全评测,覆盖13类攻击行为,揭示模型安全不等于智能体安全的核心结论。
基于OpenClaw的190条安全通告,本文整理出10大攻击面和六段攻击链分析框架,揭示智能体系统中跨层串联攻击的真实风险与防御启发。
当大模型从会回答变成会调用工具、接外部知识、自主规划任务,安全问题已不再是内容安全,而是系统攻击面问题,本文从攻击目标、路径和防御分层全面解析。
AIP协议通过可验证委托令牌IBCT,解决了多智能体系统中委托链的身份验证、权限衰减和审计留痕问题,填补了MCP和A2A在多跳委托场景下的协议层空白。
TrinityGuard提出了一套平台无关的多智能体安全评测框架,将MAS风险分为三层20类,实验显示现有多智能体框架平均安全通过率仅7.1%,系统级风险几乎全面失守。
对大模型常见越狱攻击方法进行系统分类,汇总6大类、28种具体手段,并对提示注入与越狱的差异做对比。