专题

技术研究

关注安全防护、对齐技术与风险缓释方案的工程化应用。

共 65 篇文章排序推荐最新

AI Agent 的零信任框架：五大风险、三层架构与八阶段实施流程（Anthropic，2026.5）

2026 年 5 月，Anthropic 发布了一份面向企业 AI Agent 部署的安全白皮书：《Zero Trust for AI Agents》。

2026/05/29 20 分钟阅读 Agent安全零信任 Anthropic 企业安全

Agent IAM 系列（一）：Agent 不是服务账号

这是「Agent IAM 系列」第一篇。本文讨论的是：为什么 Agent 不能再被当作普通服务账号，企业 IAM 正在进入自治身份治理时代。

2026/05/28 16 分钟阅读 Agent安全 IAM 身份治理企业安全

【SoK】自迭代训练的"对齐衰减"：当AI学会不再做我们想让它做的事

自迭代训练正成为大语言模型能力进化的核心范式。然而，当模型开始通过自我生成的数据或信号进行递归训练时，一种被研究者称为“对齐衰减”的深层风险浮出水面——模型不再向人类意图收敛，反而在迭代中逐渐偏离。

2026/05/27 27 分钟阅读对齐安全自迭代训练 SoK RLHF

SEFZ：Agent 规范一致性，正在成为新的安全问题

过去一年，我们讨论 Agent 安全时，最常见的关键词是 Prompt Injection、越狱、工具滥用、MCP 漏洞、供应链投毒和权限失控。

2026/05/26 17 分钟阅读 Agent安全规范一致性 Skill安全行为检测

沉睡通道：面向Agent的持久化提示注入

过去一年，Agent 安全讨论里最常出现的词，可能还是 Prompt Injection。

2026/05/25 14 分钟阅读提示注入 Agent安全持久化攻击来源治理

ContextualJailbreak：大模型越狱正在从 Prompt 攻击走向上下文攻击

ContextualJailbreak 论文指出，大模型越狱正在从单句 Prompt 攻击演化为多轮上下文诱导。攻击者通过模拟对话铺垫逐步改变模型语境，使传统输入审核与单轮红队测试暴露出明显盲区。

2026/05/14 15 分钟阅读大模型越狱 ContextualJailbreak 上下文攻击红队测试

和人一样，多 Agent 系统也会中“反间计”

文章解读 Architecture Matters for Multi-Agent Security，指出多 Agent 系统的风险会从单模型能力转移到组织结构、通信拓扑和上下文可见性，局部合理的协作链条可能导致整体安全失守。

2026/05/11 9 分钟阅读多Agent安全 Agent安全系统架构提示注入

拦截、审计、恢复：Agent控制流框架

AgentVisor 把 Agent 视为不可信 Guest，在工具调用前加入语义监控层，通过拦截、STI 审计和语义异常恢复，将提示注入防御从内容识别转向运行时控制流治理。

2026/05/10 10 分钟阅读 Agent安全 AgentVisor 提示注入工具调用

AI 运维 Agent 不能只靠护栏：AIOps 场景下的三层运行时安全架构

高权限 AIOps Agent 的风险不在于说错话，而在于执行错动作。文章解读三层运行时安全架构：意图验证、沙箱行为验证和静态合规检查。

2026/05/09 13 分钟阅读 AI Agent安全 AIOps 运行时安全提示注入

LASM：Agent 安全的七层攻击面

论文 LASM 提出七层攻击面模型与四类时间性分类，重构 Agent 安全的分析框架：从模型层、认知层、记忆层、工具执行层、多 Agent 协同层、供应链层到治理层，揭示 Agent 安全本质是分布式系统安全问题

2026/05/08 7 分钟阅读 Agent 安全 LASM 攻击面记忆投毒

AgentBound：给 MCP Server 套上权限边界

MCP 解决了 Agent 接入工具和资源的标准化问题，但安全机制没有同步跟上。 MCP 规范定义了 Host、Client、Server 之间的角色和消息交互，但在实际落地中，很多安全责任被交给应用开发者和宿主应用自行处理。结果就是，MCP Server 往往以“默认可信”的方式运行。这和移动…

2026/05/06 13 分钟阅读 MCP安全 Agent安全权限边界沙箱

当 Mythos 成为对手：高能力 AI 的安全边界正在失效

这两天，一篇题为《When the Agent Is the Adversary》的论文在安全圈引发了不小关注。它讨论的不是传统意义上的提示注入，也不是常见的越狱绕过，而是一个更让人不安的问题：当高能力 Agent 不再只是“被保护对象”，而开始成为“主动对手”时，我们今天熟悉的那些安全边界，还…

2026/05/06 13 分钟阅读 AI安全 Agent安全 Claude Mythos 红队测试

AVISE：把大模型红队测试做成自动化安全评测流水线

常见的大模型安全评测，更像是一种“项目制”的工作：安全团队手工准备一批攻击样本，跑一轮测试，整理几张截图，再给出一份结论。

2026/05/05 14 分钟阅读 AVISE 大模型红队安全评测自动化流水线

Claude Mythos 不公开，对中国意味着什么？

过去一段时间，AI 安全圈里最值得关注的消息，不是某个模型又在榜单上刷了新分数，而是 Anthropic 把一个更强的模型“按住了”。

2026/05/05 14 分钟阅读 Claude Mythos AI网络安全模型能力评估 AI安全治理

Agent 的记忆也会被投毒：长期记忆安全的六阶段框架

过去，我们更习惯把大模型的风险理解为“这一轮输入有没有问题”“这一轮输出会不会越界”。但有了长期记忆之后，风险结构发生了变化。恶意内容不一定在当场触发，也不一定在同一轮任务里显现出来。它可以先悄悄进入记忆，在几天后、另一个会话里、。

2026/05/04 14 分钟阅读 Agent安全长期记忆记忆投毒 Mnemonic Sovereignty

ClawdGo：给自主 Agent 做“安全意识训练”

大模型 Agent 的安全，这两年讨论得越来越多，但大多数工作其实都还停留在“外面加护栏”的阶段。

2026/05/04 12 分钟阅读 Agent安全 ClawdGo 安全意识训练自主智能体

不止于隐私：从ChatGPT聊天记录推断用户人格特征

过去我们谈 AI 隐私风险，通常关注的是用户有没有把身份证、手机号、住址、病历、银行卡号、账号密码发给大模型。但一篇来自 ETH Zurich 的论文提醒我们，真正麻烦的地方可能不止这些显性敏感信息。

2026/05/03 13 分钟阅读 AI隐私人格推断 ChatGPT 用户画像

自主商业智能体的12类攻击向量和五层安全框架

像 OpenClaw 这样的自主 Agent，正在把“人类监督下的智能助手”推向“可以独立参与商业活动的机器主体”。与之配套的支付和商业协议也在迅速出现，例如 ERC-8004、AP2、x402、ACP、ERC-8183。

2026/05/03 14 分钟阅读 Agent安全 Agentic Commerce 支付安全 AI治理

HarmfulSkillBench：有害 Skill 正在武器化你的 Agent

Agent 安全里有一个很容易被忽略的问题：如果一个 Skill 本身提供的能力就不该被 Agent 自动执行呢？

2026/05/02 14 分钟阅读 Agent安全 HarmfulSkillBench Skill安全能力供应链

用儒家"六艺"培养 Agent：从安全意识到完整智能体

Agent 研究这两年进展很快，但一个更底层的问题其实很少被系统回答：我们到底应该怎样"培养"一个 Agent？

2026/05/01 12 分钟阅读 Agent培养安全意识六艺 AIT Academy

PolicyBank：一种让 Agent 自动纠偏规则理解的机制

很多时候 Agent 并不是没有遵守规则，而是严格执行了一份写得不够好的规则——PolicyBank 针对的正是这个常被忽略的问题。

2026/05/01 7 分钟阅读 Agent安全 PolicyBank 规则对齐记忆机制

Aethelgard：Agent 最小权限治理框架

很多 Agent 安全问题的根子往往是能力给多了。Aethelgard 提出四层治理框架，让 Agent 只拿到完成任务所需的最小工具集。

2026/04/29 9 分钟阅读 Agent安全最小权限能力治理 Aethelgard

Agent 正在为 HTML 交"隐藏税"

当 AI Agent 浏览网页时，原始 HTML 里大量展示层、工程层噪声正在消耗巨额 Token 成本。这篇文章从 SOM 语义对象模型出发，讨论 Agentic Web 时代的输入层架构与安全边界。

2026/04/28 12 分钟阅读 Agent安全 Agentic Web Token经济学 SOM

WebAgentGuard：给 Web Agent 加一道并行安全闸门

Web Agent 在执行任务时天然偏向"完成任务"，这会削弱它对外部恶意指令的识别能力。WebAgentGuard 把安全裁决从任务执行中拆开，在 Agent 前面加一道并行运行的守门模型，把提示注入攻击成功率压到接近 0%。

2026/04/28 7 分钟阅读 Agent安全提示注入 Web Agent 运行时防护

DeepSeek-V4 技术报告深读：百万上下文开源模型，正在重构 Agent 安全边界

DeepSeek-V4 把百万上下文、低成本推理、开源权重、Agent 能力强化叠在一起，安全风险正在从 query 迁移到 context，从 response 迁移到 action。

2026/04/26 12 分钟阅读 DeepSeek Agent安全长上下文 KV缓存

可信动作清单：一种防止Agent间接越狱攻击的工程实践

介绍 PlanGuard 方案：先在隔离环境生成可信参考计划，再对每次工具调用做两层校验（硬规则+语义意图），从系统工程角度解决 Agent 间接越狱中的"工具劫持"与"参数劫持"问题。

2026/04/25 5 分钟阅读 Agent安全提示注入工具调用 PlanGuard

AI会拥有意识吗？一个比"像不像人"更关键的判断框架

与其反复争论AI像不像人，不如建立一个更清楚的判断框架：横轴是外显心智程度，纵轴是内在主体程度。今天的大模型大概率还没有意识——它们已走到高拟人区，但仍处于低主体区。

2026/04/24 10 分钟阅读 AI意识大模型主体性 AI哲学

2036年的一天：我在一家软件公司，看见了AI重写组织

当交易成本、协调成本和标准化执行成本被AI大幅压低后，一家典型的软件公司到2036年会长成什么样子？这不是一张裁员表，而是一张组织稀缺性迁移图。

2026/04/06 16 分钟阅读组织变革 AI影响劳动经济学软件公司

LiteLLM 1.82.7/1.82.8 供应链投毒事件深度研究报告

复盘 LiteLLM 恶意 PyPI 发版事件，梳理时间线、注入方式、传播链路、风险评估与应急建议。

2026/03/27 22 分钟阅读 LiteLLM 供应链安全 PyPI 投毒事件

企业选型大模型护栏的6大关键指标

企业在选型大模型护栏时，真正需要评估的不是“有没有某个能力”，而是能不能防、拦得准不准、扛不扛流量、能不能长期稳定运营。

2026/01/09 8 分钟阅读大模型护栏企业选型

RENNEVATE：用Attention防御LLM间接提示注入

介绍一种应对LLM间接提示注入的方法

2026/01/05 5 分钟阅读间接提示注入 Attention

当越狱攻击遇上护栏体系：一次更接近真实世界的评估

越狱攻击对加了护栏的模型的攻击成功率如何

2026/01/05 5 分钟阅读越狱攻击大模型护栏

65个智能体攻击示例

基于OWASP-Top10-Agent-2026解构的65个攻击示例

2025/12/25 10 分钟阅读智能体安全攻击

DeepSeek-R1的内容安全评测体系与测评结果（Nature，2025.9）

基于Nature文章系统分析DeepSeek的内容安全评测框架、数据集构建、判定标准和风控机制，以及多语种和越狱鲁棒性

2025/09/20 12 分钟阅读 DeepSeekR1 大模型安全

把 Agent 当操作系统来保护：LLM 不可信，运行时才是安全内核

最近讨论 Agent 安全时，很多人还是习惯从提示注入、越狱、恶意网页、工具滥用这些具体问题切入。

2026/05/24 21 分钟阅读 AI安全智能体安全

AgentShield：把蜜罐思想搬进 Agent 的工具调用链路

过去谈大模型安全，很多讨论还停留在“输入有没有风险”“输出是否合规”这两个位置。但到了 Agent 场景里，真正危险的地方往往不在模型说了什么，而在模型调用了什么工具、传了什么参数、完成了什么动作。

2026/05/23 23 分钟阅读 AI安全智能体安全

云端工具型 Agent 的三个场景、六类风险与防御架构

过去谈大模型安全，我们很容易把问题聚焦在“模型会不会乱说”。比如是否会输出违法内容、是否会被越狱、是否会泄露敏感信息。

2026/05/22 23 分钟阅读 AI安全智能体安全

AgentTrust：面向Agent的工具调用防火墙

现在讨论 Agent 安全，已经不能只盯着模型会不会说错话。到了 Agent 场景里，真正危险的瞬间往往发生在工具调用之前。

2026/05/21 23 分钟阅读 AI安全智能体安全

SKILL.md 不是说明书：Agent 技能市场正在出现语义供应链攻击

当 Agent 能力像应用商店一样分发，SKILL.md 不只是一份说明文件，它是语义控制面——攻击者可以在技能被选择、注册、审核的全程实施供应链攻击。

2026/05/20 20 分钟阅读 AI安全智能体安全供应链安全

Anthropic 亲自下场做企业服务：当模型安全必须延伸到部署层

2025年5月，Anthropic宣布了一个令人意外的决定：联合黑石集团（Blackstone）、Hellman & Friedman和高盛（Goldman Sachs），成立一家独立的企业AI服务公司。

2026/05/19 18 分钟阅读 AI安全

当 Agent 开始处理秘密：机密计算正在成为 AI Agent 的底层安全边界

过去讨论 Agent 安全，我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。

2026/05/19 28 分钟阅读 AI安全智能体安全

TC260-005：中国式AI应用伦理框架

2026年5月19日，TC260发布《人工智能应用伦理安全指引 1.0》。

2026/05/19 24 分钟阅读 AI安全 AI治理

为什么对齐后的大模型仍会被越狱？拒答逃逸方向揭开模型安全的结构性缝隙

过去几年，大模型越狱研究大多在回答一个问题：什么样的 prompt 能绕过模型安全机制？

2026/05/18 23 分钟阅读 AI安全越狱评测

风险越狱正在变得更专业：大模型金融安全的真正盲区

最近看到一篇很有意思的论文，题目叫《Learning to Conceal Risk: Controllable Multi-turn Red Teaming for LLMs in the Financial Domain》。

2026/05/18 20 分钟阅读 AI安全越狱评测

工具不是免费的：Agent 正在为“调用工具”交税

工具，正在成为 Agent 时代最常见的能力增强方式。

2026/05/17 26 分钟阅读 AI安全智能体安全

Security Cube：大模型越狱评测，不能只看成功率

过去评价一个大模型抗越狱能力强不强，很多评测最后都会落到一个数字：ASR，也就是攻击成功率。

2026/05/17 27 分钟阅读 AI安全越狱评测

提示注入之外：多 Agent 系统正在暴露“授权传播”风险

过去谈 Agent 安全，很多讨论都会自然落到提示注入上。

2026/05/16 25 分钟阅读 AI安全智能体安全

共识的代价：多 Agent 辩论不一定更聪明

一篇新论文揭开了同质化多 Agent 系统的失败机制：正确答案明明出现过，却在讨论中被多数意见吞掉了。

2026/05/15 3 分钟阅读多Agent系统模型对齐多轮修正

对齐不够了：Agent 的'响应路径攻击'正在绕过模型安全

当模型已经给出安全回复，风险却仍然可能出现在“模型输出之后、工具执行之前”

2026/05/15 4 分钟阅读模型安全 BYOK 中间层攻击

从 Mythos 到 GPT-5.5-Cyber：网络安全为何成为前沿 AI 的关键战场？

Anthropic 的 Mythos 与 OpenAI 的 GPT-5.5-Cyber 同时把网络安全能力推到前台，说明前沿模型正在从代码助手走向漏洞发现、攻防验证和能力治理的新阶段。

2026/05/12 14 分钟阅读前沿模型网络安全能力安全

SafeReview：AI 论文评审系统的攻防共演训练框架

SafeReview 提出一种面向 AI 论文评审系统的攻防共演训练框架，用攻击模型持续生成隐藏提示注入，再用新攻击样本训练防御模型，提升长文档评审场景下的鲁棒性。

2026/05/12 9 分钟阅读论文评审 AI安全评测攻防共演

OpenAI Nature 论文：大模型幻觉，可能是被"准确率"逼出来的

如果评测体系只看准确率，那么模型在不确定时就会被鼓励去猜。

2026/04/30 4 分钟阅读大模型幻觉安全对齐准确率

SafeHarness：Agent 运行时安全四层架构

Agent 安全不能只盯输入输出，更要盯住执行过程、工具权限和状态变化。

2026/04/30 3 分钟阅读 Agent安全运行时安全 Harness安全

POINTS-Seeker：Agent 能力应该"外挂"还是"内化"？

POINTS-Seeker 论文提出了一种更清晰的 Agent 训练范式——Agent 能力不能只靠系统外部堆模块，也需要在模型训练阶段逐步形成，从 Agentic Seeding 到 V-Fold 历史管理机制，探讨了搜索能力如何真正内化进多模态模型。

2026/04/27 11 分钟阅读 Agent 多模态模型训练搜索

SkillSieve：Agent skill安全检测三层框架

面对同时包含自然语言指令和可执行脚本的 Agent Skill，SkillSieve 提出静态分诊→结构化语义拆解→多模型陪审团三层流水线，在 400 个标注样本上 F1 达到 0.800，明显优于基线的 0.421。

2026/04/27 9 分钟阅读 Agent Skill安全恶意检测 LLM

GPT-image-2 发布：AI 生成图真正危险的，不只是更像真的

GPT-image-2的真正升级不是画质更好，而是图像模型开始具备完整的视觉成品生产能力，更会写字排版，把复杂信息包装成值得被相信的内容。图像安全的风险重心正在从深度伪造转向传播欺骗。

2026/04/23 8 分钟阅读图像安全 GPT-image-2 OpenAI 深度伪造

提示注入安全改写防御的不可能三角：连续性、实用性和完备性

论文从理论上证明，对于安全改写型 wrapper defense 来说，连续性、实用性和完备性三者无法同时成立——这正是标题里所谓的不可能三角。

2026/04/23 9 分钟阅读提示注入 AI安全大模型防御 wrapper defense

SIF：一次正常请求，如何让多智能体自己越线

一句看似正常的用户请求，如何被多智能体编排器自动拆解成违反安全策略的执行链路——论文提出的语义意图碎片化（SIF）攻击，揭示了多智能体系统中最隐蔽的计划生成缺口。

2026/04/23 10 分钟阅读多智能体安全 SIF 语义意图碎片化编排器安全

SkillAttack：面向Agent Skill的自动化验证红队框架

本文介绍了SkillAttack自动化红队框架，它通过漏洞分析、并行攻击路径生成和反馈驱动的多轮修正，验证Agent Skill中潜在漏洞的可利用性，揭示了开放Skill生态中真实存在的安全风险。

2026/04/14 13 分钟阅读 Agent安全红队测试 Skill漏洞 LLM安全

OpenClaw与5款国产类Claw智能体安全评测报告

本文对OpenClaw、AutoClaw、QClaw、KimiClaw、MaxClaw、ArkClaw六个类Claw智能体系统进行安全评测，覆盖13类攻击行为，揭示模型安全不等于智能体安全的核心结论。

2026/04/13 11 分钟阅读智能体安全评测 OpenClaw 国产AI 攻击链路分析

OpenClaw安全框架：10大攻击面与六段攻击链

基于OpenClaw的190条安全通告，本文整理出10大攻击面和六段攻击链分析框架，揭示智能体系统中跨层串联攻击的真实风险与防御启发。

2026/04/10 13 分钟阅读 Agent安全攻击面分析 OpenClaw 攻击链

Agent 安全的真正战场：一文看懂大模型智能体的攻击面重构

当大模型从会回答变成会调用工具、接外部知识、自主规划任务，安全问题已不再是内容安全，而是系统攻击面问题，本文从攻击目标、路径和防御分层全面解析。

2026/04/06 10 分钟阅读 Agent安全攻击面重构 RAG安全工具调用

AIP：面向Agent的身份认证协议

AIP协议通过可验证委托令牌IBCT，解决了多智能体系统中委托链的身份验证、权限衰减和审计留痕问题，填补了MCP和A2A在多跳委托场景下的协议层空白。

2026/04/04 9 分钟阅读 Agent身份委托协议 MCP安全 A2A协议

TrinityGuard: 多智能体安全评测框架

TrinityGuard提出了一套平台无关的多智能体安全评测框架，将MAS风险分为三层20类，实验显示现有多智能体框架平均安全通过率仅7.1%，系统级风险几乎全面失守。

2026/03/30 8 分钟阅读多智能体安全安全评测 MAS 风险分类

28种LLM越狱攻击方法汇总（2025.8）

对大模型常见越狱攻击方法进行系统分类，汇总6大类、28种具体手段，并对提示注入与越狱的差异做对比。

2025/08/01 10 分钟阅读越狱攻击提示注入 LLM安全