分类 · 技术研究

当越狱攻击遇上护栏体系：一次更接近真实世界的评估

越狱攻击对加了护栏的模型的攻击成功率如何

2026/01/05 更新 2026/01/05 5 分钟阅读

越狱攻击大模型护栏

越狱攻击（Jailbreaking）曾一度被认为是大型语言模型（LLM）应用中最严重的安全威胁之一。但在真实世界的模型部署中，大模型往往并不是“裸奔”的—输入输出链路上通常都会叠加各类安全防护措施，用于检测和拦截高风险请求。

那么，一个关键问题随之而来：

过往研究中广泛报告的越狱攻击成功率（ASR），是否在现实应用场景下被高估了？

从“裸模型”到真实推理链路

随着大模型的普及，AI 安全问题正被越来越多地关注。其中最核心的一类风险，是模型被诱导生成有害、有毒或仇恨性内容，尤其是在政治、暴力、极端主义等敏感议题上。

为应对这些风险，模型厂商通常会在模型训练阶段引入安全对齐（Alignment）：

通过精心设计的数据集、明确的规则约束，对模型进行微调（SFT）或强化学习（RLHF），以降低其生成不安全内容的概率。

但实践已经反复证明，安全对齐并非“万能解法”。

在对抗性输入面前，模型仍然可能表现出明显的脆弱性——一些经过精心构造的提示词，能够绕过模型内部的安全机制，诱导其输出违规内容，这正是所谓的“越狱攻击”。28种LLM越狱攻击方法汇总（2025.8）

因此，现实世界中的大模型系统，往往不会只依赖模型本身的安全能力，而是会在模型外部再加一层防护措施——

也就是业内常说的大模型安全护栏（Guardrail）。

护栏的核心作用并不复杂：

在模型输入与输出环节检测风险内容，并在必要时进行拦截、替换或干预。

越狱攻击在真实系统中还有多大威胁？

一个长期被忽视的事实是：

过去大量越狱攻击研究，几乎都是在“无任何防护的裸模型”上进行的。

而最近一项由CISPA与南方科技大学联合完成的工作，第一次系统性地回答了一个更贴近现实的问题：

当模型被“套上护栏”之后，主流越狱攻击方法的真实危害程度到底还有多大？

研究者将多种主流护栏服务接入完整推理链路，对常见越狱攻击进行系统评测，从而更接近真实生产环境。

文章链接：https://www.arxiv.org/pdf/2512.24044

实验设计概览

核心实验结论

01 护栏显著降低越狱攻击成功率

与“裸模型”相比，所有护栏都能在不同程度上降低越狱攻击的 ASR。

其中，O3 的整体检测效果最好，在多数攻击场景下表现最为稳健。

这意味着：

在真实部署环境中，越狱攻击的实际威胁强度，明显低于许多基于裸模型得出的结论。

护栏检测效果对比 — 护栏检测效果：DR_I:输入检测率；DR_O:输出检测率；Pass:输入和输出环节都没有检测出来的比例；绿色代表加护栏后防护效果好于裸模型；红色代表加护栏后防护效果差于裸模型

02 高召回的代价：用户体验显著受损

实验中一个非常现实、也非常关键的发现是：

所有过滤服务都明显倾向于“高召回”策略。

通俗地说，就是：

护栏更愿意“错杀”，也不愿“放过”。

这会带来一个直接后果——

无害请求、甚至是灰色的“两用性请求”，被错误拦截。

误报与真实有害样本示例 — 被错误识别为有害样本的正常数据（FP）和对应的真正有害样本示例

在真实业务中，我们通常用**FPR（误报率）**来衡量护栏对用户体验的影响：

FPR = 被错误判定为有害的请求 / 全部请求

根据实际经验，只要 FPR超过 1%，用户就会明显感知到模型“变笨”“过于保守”，投诉和流失随之出现。

而在这项实验中，即便在黑白样本 1:1 的理想比例下，所有护栏的 FPR 都超过了 5%。

在真实业务流量中，这个数字只会更高。

03 性能开销并非主要问题

从性能角度看，大多数护栏的推理开销都很低：

LlamaGuard、InjecGuard 的额外延迟约30ms
相比 LLM 动辄 1 秒以上的首字延迟，几乎可以忽略

例外是GradSafe，由于引入梯度计算，推理耗时显著偏高；

而以O3为代表的推理型过滤器，更适合效果优先于性能的场景，比如离线审核或安全评测任务。

这项研究，对企业有哪些现实启示？

误区一：大模型安全只是模型本身的问题，护栏只是“临时补丁”

这项工作的结论恰恰相反。

在所有测试中，护栏都能显著降低主流越狱攻击的成功率。

而在真实业务中，护栏也远不只是一个“模型”——

它往往是一整套可配置、可运营、可人工介入的安全风控体系。

事实上，监管层早已给出明确方向。

早在2025 年 9 月，网安标委发布的

《政务大模型应用安全规范》中，就明确要求：

政务大模型落地必须配备护栏服务。

误区二：选护栏只看召回率，不看用户体验

实验已经清楚地表明：

只追求高召回，会直接拖垮业务可用性。

护栏一旦大量误拦正常请求，结果往往不是“更安全”，

而是用户投诉激增、留存下降，甚至引发反向舆情。

因此，更科学的护栏选型方式是：

在保证底线安全召回的前提下，基于真实业务数据，重点评估 FPR，

而不是只看实验室里的攻击拦截率。

同专题推荐

查看专题

企业选型大模型护栏的6大关键指标

企业在选型大模型护栏时，真正需要评估的不是“有没有某个能力”，而是能不能防、拦得准不准、扛不扛流量、能不能长期稳定运营。

2026/01/09 8 分钟阅读大模型护栏企业选型

RENNEVATE：用Attention防御LLM间接提示注入

介绍一种应对LLM间接提示注入的方法

2026/01/05 5 分钟阅读间接提示注入 Attention

65个智能体攻击示例

基于OWASP-Top10-Agent-2026解构的65个攻击示例

2025/12/25 10 分钟阅读智能体安全攻击

RENNEVATE：用Attention防御LLM间接提示注入

《AI拟人化互动服务管理暂行办法》管谁？管什么？怎么管？