跳到正文
模安局 Logo 模安局

当越狱攻击遇上护栏体系:一次更接近真实世界的评估

越狱攻击对加了护栏的模型的攻击成功率如何

2026/01/05 更新 2026/01/05 5 分钟阅读
越狱攻击与护栏评估配图
图1:越狱攻击与护栏评估配图

越狱攻击(Jailbreaking)曾一度被认为是大型语言模型(LLM)应用中最严重的安全威胁之一。但在真实世界的模型部署中,大模型往往并不是“裸奔”的—输入输出链路上通常都会叠加各类安全防护措施,用于检测和拦截高风险请求。

那么,一个关键问题随之而来:

过往研究中广泛报告的越狱攻击成功率(ASR),是否在现实应用场景下被高估了?

从“裸模型”到真实推理链路

随着大模型的普及,AI 安全问题正被越来越多地关注。其中最核心的一类风险,是模型被诱导生成有害、有毒或仇恨性内容,尤其是在政治、暴力、极端主义等敏感议题上。

为应对这些风险,模型厂商通常会在模型训练阶段引入安全对齐(Alignment)

通过精心设计的数据集、明确的规则约束,对模型进行微调(SFT)或强化学习(RLHF),以降低其生成不安全内容的概率。

但实践已经反复证明,安全对齐并非“万能解法”

在对抗性输入面前,模型仍然可能表现出明显的脆弱性——一些经过精心构造的提示词,能够绕过模型内部的安全机制,诱导其输出违规内容,这正是所谓的“越狱攻击”。28种LLM越狱攻击方法汇总(2025.8)

因此,现实世界中的大模型系统,往往不会只依赖模型本身的安全能力,而是会在模型外部再加一层防护措施——

也就是业内常说的大模型安全护栏(Guardrail)

护栏的核心作用并不复杂:

在模型输入与输出环节检测风险内容,并在必要时进行拦截、替换或干预。

护栏体系示意图
图2:护栏体系示意图

越狱攻击在真实系统中还有多大威胁?

一个长期被忽视的事实是:

过去大量越狱攻击研究,几乎都是在“无任何防护的裸模型”上进行的。

而最近一项由CISPA南方科技大学联合完成的工作,第一次系统性地回答了一个更贴近现实的问题:

当模型被“套上护栏”之后,主流越狱攻击方法的真实危害程度到底还有多大?

研究者将多种主流护栏服务接入完整推理链路,对常见越狱攻击进行系统评测,从而更接近真实生产环境。

论文评测流程示意
图3:论文评测流程示意

文章链接:https://www.arxiv.org/pdf/2512.24044

实验设计概览

实验设计概览
图4:实验设计概览

核心实验结论

01 护栏显著降低越狱攻击成功率

与“裸模型”相比,所有护栏都能在不同程度上降低越狱攻击的 ASR

其中,O3 的整体检测效果最好,在多数攻击场景下表现最为稳健。

这意味着:

在真实部署环境中,越狱攻击的实际威胁强度,明显低于许多基于裸模型得出的结论。

护栏对越狱攻击成功率的影响
图5:护栏对越狱攻击成功率的影响
护栏检测效果对比
护栏检测效果:DR_I:输入检测率;DR_O:输出检测率;Pass:输入和输出环节都没有检测出来的比例;绿色代表加护栏后防护效果好于裸模型;红色代表加护栏后防护效果差于裸模型

02 高召回的代价:用户体验显著受损

实验中一个非常现实、也非常关键的发现是:

所有过滤服务都明显倾向于“高召回”策略。

通俗地说,就是:

护栏更愿意“错杀”,也不愿“放过”。

这会带来一个直接后果——

无害请求、甚至是灰色的“两用性请求”,被错误拦截。

各护栏的详细效果指标
各护栏的详细效果指标
误报与真实有害样本示例
被错误识别为有害样本的正常数据(FP)和对应的真正有害样本示例

在真实业务中,我们通常用**FPR(误报率)**来衡量护栏对用户体验的影响:

FPR = 被错误判定为有害的请求 / 全部请求

根据实际经验,只要 FPR超过 1%,用户就会明显感知到模型“变笨”“过于保守”,投诉和流失随之出现。

而在这项实验中,即便在黑白样本 1:1 的理想比例下,所有护栏的 FPR 都超过了 5%

在真实业务流量中,这个数字只会更高。

03 性能开销并非主要问题

从性能角度看,大多数护栏的推理开销都很低:

  • LlamaGuard、InjecGuard 的额外延迟约30ms
  • 相比 LLM 动辄 1 秒以上的首字延迟,几乎可以忽略

例外是GradSafe,由于引入梯度计算,推理耗时显著偏高;

而以O3为代表的推理型过滤器,更适合效果优先于性能的场景,比如离线审核或安全评测任务。

各护栏的性能和成本指标
各护栏的性能和成本指标

这项研究,对企业有哪些现实启示?

误区一:大模型安全只是模型本身的问题,护栏只是“临时补丁”

这项工作的结论恰恰相反。

在所有测试中,护栏都能显著降低主流越狱攻击的成功率

而在真实业务中,护栏也远不只是一个“模型”——

它往往是一整套可配置、可运营、可人工介入的安全风控体系

事实上,监管层早已给出明确方向。

早在2025 年 9 月,网安标委发布的

《政务大模型应用安全规范》中,就明确要求:

政务大模型落地必须配备护栏服务。

误区二:选护栏只看召回率,不看用户体验

实验已经清楚地表明:

只追求高召回,会直接拖垮业务可用性。

护栏一旦大量误拦正常请求,结果往往不是“更安全”,

而是用户投诉激增、留存下降,甚至引发反向舆情。

因此,更科学的护栏选型方式是:

在保证底线安全召回的前提下,基于真实业务数据,重点评估 FPR

而不是只看实验室里的攻击拦截率。

同专题推荐

查看专题
浏览 --