文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

2026年5月8日三部委联合印发《智能体规范应用与创新发展实施意见》，监管对象从大模型转向智能体，提出七层安全框架、权限边界、行为围栏、AIP协议与智能互联网等核心议题，标志着 Agent 时代治理底座正式铺底

论文 LASM 提出七层攻击面模型与四类时间性分类，重构 Agent 安全的分析框架：从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层，揭示 Agent 安全本质是分布式系统安全问题

AgentWard 提出面向自主 Agent 的五阶段生命周期安全架构，将初始化、输入、记忆、决策和执行分别纳入分层防护，并通过共享风险状态实现跨层联动。

MCP 解决了 Agent 接入工具和资源的标准化问题，但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互，但在实际落地中，很多安全责任被交给应用开发者和宿主应用自行处理。结果就是，MCP Server 往往以“默认可信”的方式运行。这和移动…

这两天，一篇题为《When the Agent Is the Adversary》的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入，也不是常见的越狱绕过，而是一个更让人不安的问题：当高能力 Agent 不再只是“被保护对象”，而开始成为“主动对手”时，我们今天熟悉的那些安全边界，还…

常见的大模型安全评测，更像是一种“项目制”的工作：安全团队手工准备一批攻击样本，跑一轮测试，整理几张截图，再给出一份结论。

过去一段时间，AI 安全圈里最值得关注的消息，不是某个模型又在榜单上刷了新分数，而是 Anthropic 把一个更强的模型“按住了”。

过去，我们更习惯把大模型的风险理解为“这一轮输入有没有问题”“这一轮输出会不会越界”。但有了长期记忆之后，风险结构发生了变化。恶意内容不一定在当场触发，也不一定在同一轮任务里显现出来。它可以先悄悄进入记忆，在几天后、另一个会话里、。

大模型 Agent 的安全，这两年讨论得越来越多，但大多数工作其实都还停留在“外面加护栏”的阶段。

过去我们谈 AI 隐私风险，通常关注的是用户有没有把身份证、手机号、住址、病历、银行卡号、账号密码发给大模型。但一篇来自 ETH Zurich 的论文提醒我们，真正麻烦的地方可能不止这些显性敏感信息。