文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

2026 年 5 月，Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书：《Zero Trust for AI Agents》。

这是「Agent IAM 系列」第一篇。本文讨论的是：为什么 Agent 不能再被当作普通服务账号，企业 IAM 正在进入自治身份治理时代。

2026 年 5 月，梵蒂冈发布了教皇利奥十四世的首份通谕《Magnifica Humanitas》，中文可以译作《壮丽人性》或《伟大的人性》。

自迭代训练正成为大语言模型能力进化的核心范式。然而，当模型开始通过自我生成的数据或信号进行递归训练时，一种被研究者称为“对齐衰减”的深层风险浮出水面——模型不再向人类意图收敛，反而在迭代中逐渐偏离。

过去一年，我们讨论 Agent 安全时，最常见的关键词是 Prompt Injection、越狱、工具滥用、MCP 漏洞、供应链投毒和权限失控。

过去一年，Agent 安全讨论里最常出现的词，可能还是 Prompt Injection。

最近讨论 Agent 安全时，很多人还是习惯从提示注入、越狱、恶意网页、工具滥用这些具体问题切入。

2026/05/24 21 分钟阅读 AI安全智能体安全

过去谈大模型安全，很多讨论还停留在“输入有没有风险”“输出是否合规”这两个位置。但到了 Agent 场景里，真正危险的地方往往不在模型说了什么，而在模型调用了什么工具、传了什么参数、完成了什么动作。

2026/05/23 23 分钟阅读 AI安全智能体安全

过去谈大模型安全，我们很容易把问题聚焦在“模型会不会乱说”。比如是否会输出违法内容、是否会被越狱、是否会泄露敏感信息。

2026/05/22 23 分钟阅读 AI安全智能体安全

现在讨论 Agent 安全，已经不能只盯着模型会不会说错话。到了 Agent 场景里，真正危险的瞬间往往发生在工具调用之前。

2026/05/21 23 分钟阅读 AI安全智能体安全