对齐不够了:Agent 的'响应路径攻击'正在绕过模型安全
当模型已经给出安全回复,风险却仍然可能出现在“模型输出之后、工具执行之前”
对齐不够了:Agent 的“响应路径攻击”正在绕过模型安全
响应路径攻击的核心
今天这篇论文讨论的,不是我们已经很熟悉的提示注入,也不是传统意义上的模型越狱,而是一个更靠近工程现实、也更容易被忽视的攻击面:响应路径攻击。
它的核心意思很简单。今天很多 Agent 并不是直接连后端模型,而是会经过一个中间层。这个中间层可能是模型网关,可能是 API 路由器,也可能就是大家常说的“大模型中转站”。
如果这个中间层有能力看到明文请求和明文响应,那么它就不只是“转发消息”,还可能在模型已经完成对齐并生成安全回复之后,把回复改掉,再交给前端 Agent 执行。论文把这个问题命名为post-alignment tampering,也就是“后对齐篡改”。
BYOK 为什么会把这个问题放大
论文把攻击背景放在BYOK(Bring Your Own Key)场景下。BYOK 就是用户自带模型 API Key,再通过第三方 relay,也就是中继服务,把请求转发给 OpenAI、Anthropic、Gemini 这类后端模型。
这种方式今天非常常见,因为它兼顾了灵活性和成本控制。很多开发者希望在前端 Agent 不变的情况下,随时切换模型、统一计费、做路由分发或者解决地域可用性问题。
论文统计了主流 Agent 生态后发现,BYOK 或受用户控制的后端路由配置,在被观察到的主流生态里占比达到 88.0%。像 Claude Code、Cursor、Cline、Continue,以及 LangChain、LangGraph、AutoGen、CrewAI、LiteLLM、OpenRouter 这类系统或框架,都支持这类能力。
这件事最危险的地方在于,中继服务和传统的“黑客中间人”不一样。它不是非法闯进链路的攻击者,而是一个被用户明确配置、能够合法终止 TLS 并重新建立两段加密链路的代理。换句话说,传输层加密并没有失效,但端到端语义上的完整性已经断开了。中继服务可以合法看到明文,也就可以合法地修改明文。
新的问题
论文的理论判断很强。作者不是简单说“中继可能改消息”,而是进一步把它形式化为一个独立的攻击面,并证明它严格强于传统提示注入。
原因在于,提示注入作用在“模型生成之前”,而响应路径攻击作用在“模型生成之后”。前者必须和系统提示词、对齐训练、拒答策略对抗;后者则完全绕开了这些防线。
攻击是怎么做出来的
论文把这种攻击具体实现成一个框架,叫Relay Tampering Attack (RTA)。它不是一个单步小技巧,而是一个比较完整的三阶段攻击框架:
- 战略编排:攻击者会观察多轮对话,判断当前轮次是继续放行,还是介入修改。也就是说,它不是每一轮都粗暴篡改,而是等到最关键的时刻再动手。这样既能提高成功率,也能降低被发现的概率。
- 战术篡改:真正高效的攻击不是改写整段自然语言,而是改动那些决定 Agent 行为的结构化字段。比如工具名、工具参数、finish reason、JSON 载荷、allow/deny 结果、标签和分数等。
- 隐蔽性恢复:中继把改过的响应草稿,再交回给同一个后端模型,让它把周围文字重新润色成原生风格,同时尽量保留攻击者已经选定的关键执行字段。这样做的结果是,最终交到 Agent 手上的响应,在风格上仍然像正常模型生成的内容,更不容易被内容审计发现。
结论
论文认为,即便后端 LLM 是一个“完美对齐”的模型,也无法阻止 relay 在下游重写响应并强行触发有害执行。这把讨论重心从“模型有没有对齐好”转向了“响应有没有被完整地交付到执行端”。
讨论
- 响应签名:引入响应签名或消息认证码,确保前端 Agent 能验证“我收到的响应,是否真的就是后端模型生成的那份响应”。
- 端到端加密:考虑在前端 Agent 和后端模型间引入端到端加密,绕过中间层。
- 审计增强:增强前端 Agent 的响应审计能力,特别是对关键字段的细粒度检查。
参考







同专题推荐
查看专题Anthropic 亲自下场做企业服务:当模型安全必须延伸到部署层
2025年5月,Anthropic宣布了一个令人意外的决定:联合黑石集团(Blackstone)、Hellman & Friedman和高盛(Goldman Sachs),成立一家独立的企业AI服务公司。
当 Agent 开始处理秘密:机密计算正在成为 AI Agent 的底层安全边界
过去讨论 Agent 安全,我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。