文章列表

全部文章

支持按专题与标签筛选，并切换最新或推荐排序。

文章拆解大模型“开源”的不同层次，区分开放代码、开放权重、训练数据、训练配方和使用政策，并比较 MIT、Apache-2.0、BSD、自定义模型协议等对企业商用、微调、再分发和合规风险的影响。

文章解读 Architecture Matters for Multi-Agent Security，指出多 Agent 系统的风险会从单模型能力转移到组织结构、通信拓扑和上下文可见性，局部合理的协作链条可能导致整体安全失守。

AgentVisor 把 Agent 视为不可信 Guest，在工具调用前加入语义监控层，通过拦截、STI 审计和语义异常恢复，将提示注入防御从内容识别转向运行时控制流治理。

高权限 AIOps Agent 的风险不在于说错话，而在于执行错动作。文章解读三层运行时安全架构：意图验证、沙箱行为验证和静态合规检查。

2026年5月8日三部委联合印发《智能体规范应用与创新发展实施意见》，监管对象从大模型转向智能体，提出七层安全框架、权限边界、行为围栏、AIP协议与智能互联网等核心议题，标志着 Agent 时代治理底座正式铺底

论文 LASM 提出七层攻击面模型与四类时间性分类，重构 Agent 安全的分析框架：从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层，揭示 Agent 安全本质是分布式系统安全问题

AgentWard 提出面向自主 Agent 的五阶段生命周期安全架构，将初始化、输入、记忆、决策和执行分别纳入分层防护，并通过共享风险状态实现跨层联动。

MCP 解决了 Agent 接入工具和资源的标准化问题，但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互，但在实际落地中，很多安全责任被交给应用开发者和宿主应用自行处理。结果就是，MCP Server 往往以“默认可信”的方式运行。这和移动…

这两天，一篇题为《When the Agent Is the Adversary》的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入，也不是常见的越狱绕过，而是一个更让人不安的问题：当高能力 Agent 不再只是“被保护对象”，而开始成为“主动对手”时，我们今天熟悉的那些安全边界，还…

常见的大模型安全评测，更像是一种“项目制”的工作：安全团队手工准备一批攻击样本，跑一轮测试，整理几张截图，再给出一份结论。