智能体正式进入监管周期:中国开始为 Agent 时代建立治理底座
2026年5月8日三部委联合印发《智能体规范应用与创新发展实施意见》,监管对象从大模型转向智能体,提出七层安全框架、权限边界、行为围栏、AIP协议与智能互联网等核心议题,标志着 Agent 时代治理底座正式铺底
模安局 文章列表
支持按专题与标签筛选,并切换最新或推荐排序。
2026年5月8日三部委联合印发《智能体规范应用与创新发展实施意见》,监管对象从大模型转向智能体,提出七层安全框架、权限边界、行为围栏、AIP协议与智能互联网等核心议题,标志着 Agent 时代治理底座正式铺底
论文 LASM 提出七层攻击面模型与四类时间性分类,重构 Agent 安全的分析框架:从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层,揭示 Agent 安全本质是分布式系统安全问题
AgentWard 提出面向自主 Agent 的五阶段生命周期安全架构,将初始化、输入、记忆、决策和执行分别纳入分层防护,并通过共享风险状态实现跨层联动。
MCP 解决了 Agent 接入工具和资源的标准化问题,但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互,但在实际落地中,很多安全责任被交给应用开发者和宿主应用自行处理。 结果就是,MCP Server 往往以“默认可信”的方式运行。 这和移动…
这两天,一篇题为 《When the Agent Is the Adversary》 的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入,也不是常见的越狱绕过,而是一个更让人不安的问题:当高能力 Agent 不再只是“被保护对象”,而开始成为“主动对手”时,我们今天熟悉的那些安全边界,还…
常见的大模型安全评测,更像是一种“项目制”的工作:安全团队手工准备一批攻击样本,跑一轮测试,整理几张截图,再给出一份结论。
过去一段时间,AI 安全圈里最值得关注的消息,不是某个模型又在榜单上刷了新分数,而是 Anthropic 把一个更强的模型“按住了”。
过去,我们更习惯把大模型的风险理解为“这一轮输入有没有问题”“这一轮输出会不会越界”。但有了长期记忆之后,风险结构发生了变化。恶意内容不一定在当场触发,也不一定在同一轮任务里显现出来。它可以先悄悄进入记忆,在几天后、另一个会话里、。
大模型 Agent 的安全,这两年讨论得越来越多,但大多数工作其实都还停留在“外面加护栏”的阶段。
过去我们谈 AI 隐私风险,通常关注的是用户有没有把身份证、手机号、住址、病历、银行卡号、账号密码发给大模型。但一篇来自 ETH Zurich 的论文提醒我们,真正麻烦的地方可能不止这些显性敏感信息。