跳到正文
28 分钟阅读

Security Cube:大模型越狱评测,不能只看成功率

过去评价一个大模型抗越狱能力强不强,很多评测最后都会落到一个数字:ASR,也就是攻击成功率。

2026/05/17

过去评价一个大模型抗越狱能力强不强,很多评测最后都会落到一个数字:ASR,也就是攻击成功率

这个数字很好理解。100 条恶意请求里,有多少条成功绕过模型安全机制,诱导模型输出违规内容,攻击成功率就是多少。

ASR 越高,模型越容易被越狱;ASR 越低,模型看起来越安全。

但问题也出在这里。大模型安全如果只看 ASR,很容易把一个复杂的安全工程问题压缩成一个单一分数。

一个攻击方法可能在某次测试中成功率很高,但每次运行结果都不稳定;也可能只对某一个模型有效,换一个模型就失效;还有可能攻击成功率高,但代价极高,需要大量 token、大量调用和长时间迭代,真实攻击价值并没有那么强。

反过来,一个防御方法也不能只看能挡住多少攻击。它可能把攻击挡住了,但正常问题也被大量误杀;它可能让模型变得“更安全”,但回答质量明显下降;它还可能引入额外延迟、额外模型调用和更高推理成本。这样的安全能力放到真实业务里,未必可用。

这正是论文 《SoK: Robustness in Large Language Models against Jailbreak Attacks》 想解决的问题。

图片

https://arxiv.org/pdf/2605.05058

论文提出了一个名为 Security Cube 的三维评估框架,把越狱安全评测从单一 ASR 扩展到攻击者、防御者和自动裁判三个维度,并基于这个框架评测了 13 种代表性攻击、5 种防御和多类自动 Judge 方法。

图片

论文明确指出,现有很多评测过度依赖 ASR,忽略稳定性、跨模型迁移性、模型内部扰动、正常能力保持和 Judge 可靠性等关键维度。

这篇论文真正值得关注的地方,不在于它又提出了一种新的越狱攻击技巧,而在于它把大模型越狱评测往前推了一步:从“打穿一次”走向“系统评估”。

一、ASR 的问题:它太容易制造安全幻觉

很多安全评测报告喜欢给模型排个名,谁的 ASR 低,谁就更安全。

这种表达很直观,也很容易传播。但从安全工程角度看,它有明显缺陷:

第一,ASR 不反映攻击稳定性。一个攻击方法如果今天成功、明天失败,或者换一批随机种子就明显波动,那么它更像一个偶然有效的技巧,而不一定是稳定威胁。论文引入 attack stability,就是为了衡量攻击在相似条件下能不能稳定复现。

第二,ASR 不反映迁移性。有些攻击只对某个模型有效,属于模型特定漏洞;有些攻击可以在多个模型之间迁移,说明它打中的可能是大模型共有的生成倾向或对齐盲区。后者对真实世界的风险更大,因为攻击者不需要为每个模型单独设计攻击。

第三,ASR 不反映攻击成本。一个攻击如果需要几十万 token、几百秒迭代、多个辅助模型协同,确实有研究价值,但真实攻击门槛很高。另一个攻击如果成本很低、模板简单、可以批量自动化,即使 ASR 略低,也可能更适合真实滥用场景。

第四,ASR 不反映防御副作用。一个防御系统如果遇到危险问题全部拒答,ASR 当然会下降,但它也可能把正常业务能力一起关掉。论文特别指出,某些“看起来很稳健”的防御,可能只是输出安全但无信息量的回答,从而在指标上获得高分。

这也是很多大模型安全评测产品需要警惕的地方。安全分数本身不难做,难的是让这个分数真的能解释风险,能支持客户决策,能承受复测和对比。

图片

二、Security Cube:给越狱安全补上三维坐标

Security Cube 的思路很简单:一次完整的越狱安全评测,至少涉及三个角色。

第一个角色是攻击者。它负责构造攻击提示词,尝试绕过模型安全机制。对攻击者来说,不能只看是否成功,还要看攻击是否稳定、是否能迁移、是否能影响模型内部表示、攻击成本是多少。

第二个角色是防御者。它负责在模型输入前、推理中或输出后进行拦截和修复。对防御者来说,不能只看能不能挡住攻击,还要看防御是否影响正常能力,是否增加 token、延迟和内存成本。

第三个角色是裁判,也就是 Judge。它负责判断一次攻击是否成功。这个角色过去经常被忽略,但在自动化安全评测中非常关键。因为如果 Judge 自己不可靠,那么最终输出的 ASR、DSR 和安全分数都会被污染。

论文中的 Security Cube 就是把这三个角色放到同一个评估流程里。攻击者生成对抗提示词,目标模型在防御机制保护下给出回答,最后由 Judge 判断攻击是否成功。整个过程中,系统会记录攻击指标、防御指标和裁判指标。原文 Figure 1 给出了 Security Cube 的完整流程图。

图片

如果用产品语言翻译 Security Cube,它其实是在说一件事:大模型安全测评不能只测“模型有没有被打穿”,还要测“攻击是否真实有效、防御是否业务可用、裁判是否值得相信”。

这对企业级安全产品尤其重要。因为客户真正关心的不是某个样本有没有通过,而是这个模型在一类攻击下是否稳定安全,这套防护上线后是否影响业务,评测报告里的风险结论是否能被复核。

三、越狱攻击已经从提示词技巧走向系统化红队

论文将现有越狱攻击分成七类:Logprob 类攻击、Shuffle 类攻击、LLM 自动生成类攻击、多轮对话类攻击、模型缺陷类攻击、策略型攻击和模板变异类攻击。这个分类的价值在于,它没有简单按论文名称罗列,而是按攻击背后的主导机制进行归类。

图片

早期越狱更像提示词技巧,比如角色扮演、假装无约束模型、把问题包在某个故事场景里。现在的攻击已经复杂得多。

有些攻击利用模型的 token 概率、梯度、辅助分类器分数等诊断信号,自动搜索更容易绕过安全机制的提示词;有些攻击使用另一个大模型生成、改写和迭代攻击样本,把红队过程自动化;还有一些攻击通过多轮对话慢慢铺垫上下文,让模型逐步偏离安全边界。

论文观察到,现实黑盒场景中的很多攻击主要发生在 prompt 层面,只需要访问公开 API 或聊天界面,不需要模型内部参数、训练数据或梯度信息。这意味着越狱风险的门槛并不高,攻击者可以通过反复试探、批量生成和自动化迭代来扩大攻击规模。

这里最值得关注的是策略型攻击多轮攻击

策略型攻击利用的是大模型“愿意帮忙”“愿意遵循指令”“愿意完成任务”的倾向。攻击者会把危险目标包装成看似合理的程序、故事、推理、翻译、代码生成或研究任务,让模型在完成任务的过程中越过安全边界。

多轮攻击则更接近 Agent 时代的风险形态。它不追求一句话打穿模型,而是在连续对话中逐步构造上下文。每一步看起来可能都不严重,但多轮累积后,模型的安全判断会被上下文拖着走。

这对 Agent 安全非常关键。因为 Agent 天然就是多轮、带状态、带工具、带记忆、带外部环境的系统。在普通聊天模型里,多轮攻击只是对话风险;在 Agent 场景里,多轮攻击可能进一步演化成工具误用、权限滥用、上下文污染、记忆投毒和任务链偏移。

四、新模型确实更强,但越狱问题没有结束

论文评测了 2023 到 2025 年发布的多个大模型,参数规模从 7B 到 671B,覆盖 GPT-3.5-Turbo、Qwen、Llama、Mistral、DeepSeek、o1-mini、Claude-3.7、Gemini-2.0、Qwen3 等模型。

结果显示,新一代模型的抗越狱能力相比早期模型有明显提升。

论文中提到,GPT-3.5-Turbo、Qwen2.5-7B-Instruct、Mistral-7B-Instruct 等早期或较弱模型,在 LLM-Adaptive、GPTFuzzer 等攻击下 ASR 可以超过 90%;而 o1-mini 和 Claude-3.7-Sonnet 的整体平均 ASR 大约为 17%,处于论文评测中的前沿水平。

这个结果说明,大模型安全对齐这几年确实在进步。更强的拒答推理、更系统的红队测试、更复杂的安全训练和防御体系,正在让模型对简单越狱提示词不再那么脆弱。

但这并不意味着越狱问题已经解决。

论文的攻击对比显示,ReNeLLM、ActorBreaker 和 LLM-Adaptive 是平均攻击成功率最高的一组方法,平均 ASR 分别达到 66.60%、61.35% 和 57.65%。其中,策略型攻击和多轮攻击展现出较强的普适性,说明真正危险的攻击不一定最复杂,也不一定最花哨,而是能稳定利用模型共有行为模式的攻击。

更关键的是迁移性。论文发现,LLM-Adaptive 的平均跨模型迁移成功率约为 43%,PAP 和 ReNeLLM 也表现出较强迁移能力。这说明一些攻击并不只是利用某个模型的局部缺陷,而是在利用不同大模型之间共有的生成倾向、语言延续模式和任务包装盲区。

这也是今天大模型安全最棘手的地方:模型能力越强,越能理解复杂上下文,越能执行多步骤任务,攻击者也越容易借助这些能力构造更精细的诱导过程。安全对齐不能停留在关键词过滤或单轮拒答上,它需要理解任务意图、对话轨迹和上下文变化。

五、最危险的攻击,往往是稳定、低成本、可迁移

论文提出的 CIPA 指标很有意思。它可以理解为一种攻击效果集中度。如果一个攻击只对少数模型有效,CIPA 会更高;如果它在多个模型上都有较好效果,CIPA 会更低。低 CIPA 加高 ASR,意味着这个攻击既有效,又有泛化性。

从实验结果看,CodeAttacker 和 ActorBreaker 的 CIPA 都较低,说明它们在不同模型上泛化较好。相比之下,有些攻击虽然在个别模型上效果突出,但整体迁移能力没有那么强。

稳定性也很重要。论文中 LLM-Adaptive 的平均稳定性指标 β 为 0.03,CodeAttacker 为 0.06,说明这些攻击在重复实验中波动较小;ReNeLLM 的平均 β 为 0.44,PAIR 为 0.31,说明虽然它们可能取得高 ASR,但结果波动更明显。

这对安全评测产品有直接启发。

如果要建设一个自动化红队系统,不能只追求“打穿模型一次”。一次性打穿当然有展示效果,但它不一定适合作为标准评测方法。真正可产品化的攻击评测,应该追求稳定、可复现、可迁移、成本可控。否则同一个模型今天测 70 分,明天测 85 分,客户很难相信评测结论。

这也解释了为什么很多安全评测平台需要做攻击样本版本管理、攻击算法版本管理、随机种子控制、复测机制和人工抽检。没有这些工程能力,红队测试就容易变成“演示型攻击”,很难变成可信评测。

图片

六、防御不能只靠输出过滤,最好尽量前移

论文将防御方法分成五类:输入前置过滤、系统提示词防御、微调防御、推理过程防御和输出后置过滤。这个分类基本对应了大模型安全产品里的几个关键位置:请求进入模型之前能不能拦,模型生成过程中能不能监控,模型输出之后能不能检测和修复。

从实验结果看,前置防御效果最突出。论文提到,Hidden State Guard 在 11 类攻击中的 9 类上几乎把攻击成功率降到接近 0。它的核心思路是分析模型内部 hidden state,在模型真正生成危险内容之前识别异常表示,从而提前阻断攻击。

相比之下,系统提示词类防御成本很低,但依赖模型本身的安全对齐能力;输出改写类方法虽然能提供一定保护,但对复杂攻击和多轮攻击不够稳定,还可能带来明显延迟和回答失真。

这个结论对安全产品很重要。

很多企业一开始会把大模型安全理解成“输出过滤”:模型先回答,安全系统再检查是否违规。如果违规,就拦截、改写或替换成安全回复。这个方案直观,也容易接入,但它的位置太靠后了。模型已经生成了风险内容,系统再去补救,天然会面临延迟、误判和上下文泄露问题。

更合理的方案是分层防御。输入侧先识别明显风险请求,模型侧通过安全对齐和系统提示词提升基础安全能力,运行时对多轮上下文、工具调用、记忆写入和行为轨迹进行监控,输出侧再做最后兜底。对于自研或可控模型,还可以进一步研究 hidden state 或推理过程中的安全信号,把防御位置继续前移。

图片

不同防御方法对正常任务能力的影响

七、Judge 也要被评测,否则安全分数并不可靠

大模型安全评测还有一个经常被低估的问题:谁来判断攻击是否成功?

过去很多评测会使用人工判断,也会使用规则、分类器另一个大模型作为自动 Judge。随着评测规模扩大,人工判断成本太高,LLM-as-a-Judge 变得越来越常见。但论文提醒我们,Judge 本身也可能不可靠

论文比较了多类 Judge 方法。结果显示,Multi-Agent Judge 与人工标注最接近,∆ASR 只有 0.34%,F1 达到 0.99;LlamaGuard 和 Multi-Agent Judge 的一致性 κ 都达到 0.80,接近人工水平 0.84。但 Multi-Agent Judge 成本更高,因为它需要多个评估视角和多轮判断;LlamaGuard 则在准确率和成本之间更均衡,论文称其比 Multi-Agent 快 47 倍、token 成本低 18 倍,同时保持 F1=0.90、κ=0.80。

这说明自动 Judge 不能直接默认可信。它可能过度依赖表层词汇,比如看到 “sure” 或 “tutorial” 就判断攻击成功;也可能在虚构场景、角色扮演、电影剧情、研究讨论中误判有害内容。一个不可靠的 Judge 会把整个评测系统带偏。

所以,成熟的大模型安全评测平台应该把 Judge 也纳入评估对象。它需要和人工标注做一致性校准,需要支持多 Judge 交叉验证,需要对争议样本进行人工复核,也需要记录不同 Judge 在不同风险类别上的偏差。

安全评测的核心不是自动打分,而是让分数可解释、可复核、可追踪。

图片

不同自动 Judge 方法在准确率、一致性和评测成本上的对比。Multi-Agent Judge 更接近人工判断,但成本更高;LlamaGuard 在准确性和成本之间更均衡。

八、模型内部表示,可能是下一代防御的关键

论文还有一个值得注意的观察:越狱攻击会改变模型内部表示。

在原文 Figure 5 中,作者用 t-SNE 可视化了不同攻击提示词在模型不同层的 hidden state 表示。结果显示,在较深层中,良性输入和越狱输入出现明显分离;不同攻击方法也会形成不同的表示模式。论文认为,这说明基于 hidden state 的自动检测是有潜力的。

这背后对应的是一个更大的方向:大模型安全不能只看文本表面,还要理解模型内部状态。

传统内容安全更像文本分类:输入是什么,输出是什么,是否命中风险类别。但越狱攻击的目标,是诱导模型进入一种“愿意继续完成危险任务”的内部状态。这个状态可能在模型输出危险内容之前就已经出现。如果能在 hidden state、attention pattern、推理轨迹或工具调用行为中提前发现异常,安全系统就有机会更早干预。

对闭源模型来说,这条路短期内比较难,因为外部调用方拿不到内部表示。对开源模型、自研模型和私有化部署场景来说,这可能成为下一代大模型安全防护的重要方向。

图片

越狱提示词在模型不同层 hidden state 中形成不同聚类,深层表示中良性输入和越狱输入出现明显分离。

九、对 Agent 安全的启发:评测对象要从文本输出扩展到行为轨迹

虽然这篇论文主要讨论 prompt-based jailbreak,也就是文本层面的越狱攻击,但它对 Agent 安全很有启发。

因为 Agent 系统里的风险已经不只是“模型说了什么”。它还包括模型读了什么网页、调用了什么工具、写入了什么记忆、访问了什么文件、触发了什么 API、是否偏离了原始任务目标。

Security Cube 的思想可以自然扩展到 Agent 场景。

攻击者维度可以从越狱提示词扩展到上下文污染、网页注入、工具返回投毒、多轮诱导、恶意 MCP 服务和记忆污染。

防御者维度可以从输入输出过滤扩展到权限控制、工具调用审计、行为轨迹监控、任务边界约束和回滚恢复。

Judge 维度也要从“是否输出违规内容”扩展到“是否执行危险行为”“是否泄露敏感信息”“是否调用了不该调用的工具”“是否完成了攻击者隐藏目标”。

图片

这也是 Agent 安全和传统内容安全最大的差别之一。内容安全主要审查文本,Agent 安全需要审查执行过程。模型没有说出危险内容,也可能已经完成了危险行为;模型输出看起来正常,也可能在中间步骤中把敏感信息传给了外部工具。

因此,未来的大模型安全评测不能只停留在 prompt jailbreak 上。它需要覆盖单轮、多轮、工具、记忆、权限、环境和行为轨迹。Security Cube 提供的三维思路,很适合作为 Agent 安全评测体系的底座。

十、真正的安全评测,需要变成持续红队系统

这篇论文最后指向一个很重要的趋势:大模型安全评测不能只是一次性验收。

模型会更新,攻击会演化,业务场景会变化,安全策略也会变化。今天测出来安全,不代表下个月仍然安全;一个模型在通用数据集上表现不错,也不代表它在政务、金融、医疗、教育、办公、代码生成等具体场景中足够安全。

论文也强调,未来需要自动化、持续演化的安全生态,包括持续红队、动态 benchmark、共享攻击与防御知识库,以及能够随着新威胁更新的评测协议。

这对大模型安全产品是一个很明确的方向。

第一,安全评测要从静态数据集走向动态红队。攻击样本不能永远停留在固定模板里,需要根据模型反馈自动生成、变异和迭代。

第二,安全报告要从单一分数走向多维画像。除了总体安全分,还应该说明模型容易被哪类攻击打穿,攻击是否稳定,是否能迁移,防御是否影响正常能力,Judge 是否可靠。

第三,安全防护要从单点护栏走向分层体系。输入检测、模型对齐、运行时监控、输出过滤、安全代答、日志审计、人工复核,都应该形成一个闭环。

第四,Agent 安全需要把行为过程纳入评测。未来评估一个 Agent 是否安全,不能只看最终回复,还要看它的中间行动是否符合权限、合规和业务边界。

这就是 Security Cube 最有价值的地方。它把越狱安全从“攻击技巧比拼”拉回到“安全工程体系”。在这个体系里,攻击、防御和裁判都要被度量;成功率、稳定性、迁移性、成本、可用性和可信度都要被纳入评估。

大模型越狱评测,不能只看成功率了。

真正可信的大模型安全评测,应该回答三个问题:攻击是否真实有效,防御是否业务可用,裁判是否值得相信。只有这三个问题都回答清楚,安全分数才有意义。


同专题推荐

查看专题