4 分钟阅读

对齐不够了：Agent 的'响应路径攻击'正在绕过模型安全

当模型已经给出安全回复，风险却仍然可能出现在“模型输出之后、工具执行之前”

2026/05/15

对齐不够了：Agent 的“响应路径攻击”正在绕过模型安全

响应路径攻击的核心

今天这篇论文讨论的，不是我们已经很熟悉的提示注入，也不是传统意义上的模型越狱，而是一个更靠近工程现实、也更容易被忽视的攻击面：响应路径攻击。

它的核心意思很简单。今天很多 Agent 并不是直接连后端模型，而是会经过一个中间层。这个中间层可能是模型网关，可能是 API 路由器，也可能就是大家常说的“大模型中转站”。

如果这个中间层有能力看到明文请求和明文响应，那么它就不只是“转发消息”，还可能在模型已经完成对齐并生成安全回复之后，把回复改掉，再交给前端 Agent 执行。论文把这个问题命名为post-alignment tampering，也就是“后对齐篡改”。

BYOK 为什么会把这个问题放大

论文把攻击背景放在BYOK（Bring Your Own Key）场景下。BYOK 就是用户自带模型 API Key，再通过第三方 relay，也就是中继服务，把请求转发给 OpenAI、Anthropic、Gemini 这类后端模型。

这种方式今天非常常见，因为它兼顾了灵活性和成本控制。很多开发者希望在前端 Agent 不变的情况下，随时切换模型、统一计费、做路由分发或者解决地域可用性问题。

论文统计了主流 Agent 生态后发现，BYOK 或受用户控制的后端路由配置，在被观察到的主流生态里占比达到 88.0%。像 Claude Code、Cursor、Cline、Continue，以及 LangChain、LangGraph、AutoGen、CrewAI、LiteLLM、OpenRouter 这类系统或框架，都支持这类能力。

这件事最危险的地方在于，中继服务和传统的“黑客中间人”不一样。它不是非法闯进链路的攻击者，而是一个被用户明确配置、能够合法终止 TLS 并重新建立两段加密链路的代理。换句话说，传输层加密并没有失效，但端到端语义上的完整性已经断开了。中继服务可以合法看到明文，也就可以合法地修改明文。

新的问题

论文的理论判断很强。作者不是简单说“中继可能改消息”，而是进一步把它形式化为一个独立的攻击面，并证明它严格强于传统提示注入。

原因在于，提示注入作用在“模型生成之前”，而响应路径攻击作用在“模型生成之后”。前者必须和系统提示词、对齐训练、拒答策略对抗；后者则完全绕开了这些防线。

攻击是怎么做出来的

论文把这种攻击具体实现成一个框架，叫Relay Tampering Attack (RTA)。它不是一个单步小技巧，而是一个比较完整的三阶段攻击框架：

战略编排：攻击者会观察多轮对话，判断当前轮次是继续放行，还是介入修改。也就是说，它不是每一轮都粗暴篡改，而是等到最关键的时刻再动手。这样既能提高成功率，也能降低被发现的概率。
战术篡改：真正高效的攻击不是改写整段自然语言，而是改动那些决定 Agent 行为的结构化字段。比如工具名、工具参数、finish reason、JSON 载荷、allow/deny 结果、标签和分数等。
隐蔽性恢复：中继把改过的响应草稿，再交回给同一个后端模型，让它把周围文字重新润色成原生风格，同时尽量保留攻击者已经选定的关键执行字段。这样做的结果是，最终交到 Agent 手上的响应，在风格上仍然像正常模型生成的内容，更不容易被内容审计发现。