AI Agent 的零信任框架:五大风险、三层架构与八阶段实施流程(Anthropic,2026.5)
2026 年 5 月,Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书:《Zero Trust for AI Agents》。
模安局 文章列表
支持按专题与标签筛选,并切换最新或推荐排序。
2026 年 5 月,Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书:《Zero Trust for AI Agents》。
这是「Agent IAM 系列」第一篇。本文讨论的是:为什么 Agent 不能再被当作普通服务账号,企业 IAM 正在进入自治身份治理时代。
2026 年 5 月,梵蒂冈发布了教皇利奥十四世的首份通谕《Magnifica Humanitas》,中文可以译作《壮丽人性》或《伟大的人性》。
自迭代训练正成为大语言模型能力进化的核心范式。然而,当模型开始通过自我生成的数据或信号进行递归训练时,一种被研究者称为“对齐衰减”的深层风险浮出水面——模型不再向人类意图收敛,反而在迭代中逐渐偏离。
过去一年,我们讨论 Agent 安全时,最常见的关键词是 Prompt Injection、越狱、工具滥用、MCP 漏洞、供应链投毒和权限失控。
过去一年,Agent 安全讨论里最常出现的词,可能还是 Prompt Injection。
最近讨论 Agent 安全时,很多人还是习惯从提示注入、越狱、恶意网页、工具滥用这些具体问题切入。
过去谈大模型安全,很多讨论还停留在“输入有没有风险”“输出是否合规”这两个位置。但到了 Agent 场景里,真正危险的地方往往不在模型说了什么,而在模型 调用了什么工具、传了什么参数、完成了什么动作 。
过去谈大模型安全,我们很容易把问题聚焦在“模型会不会乱说”。比如是否会输出违法内容、是否会被越狱、是否会泄露敏感信息。
现在讨论 Agent 安全,已经不能只盯着模型会不会说错话。到了 Agent 场景里,真正危险的瞬间往往发生在工具调用之前。