RENNEVATE：用Attention防御LLM间接提示注入

介绍一种应对LLM间接提示注入的方法

2026/01/05 更新 2026/01/06 5 分钟阅读

想象一个再普通不过的场景：你让大模型总结一篇网页、读取一封邮件，或者从知识库里查点资料。

用户的问题是正常的，系统流程也是标准的，但模型给出的结果却突然变得异常——开始输出奇怪的链接，或者执行了完全不符合预期的指令。

问题不在用户输入，而在资料本身。

那段被模型“当作参考信息”的外部内容里，悄悄藏着一条指令。

这种攻击方式被称为间接提示注入（Indirect Prompt Injection，IPI）。

它不是强行“越狱”模型，而是借助模型信任的外部信息源，悄悄接管模型的行为。

IPI 和传统越狱的区别

一句话区分两者：

*传统越狱是“用户直接对模型下指令”，* *而 IPI 是“模型自己从外部资料里读到指令”。*

在传统 prompt 越狱中，攻击指令直接出现在用户输入里；

而在 IPI 场景下，用户的提问往往完全正常，真正的问题发生在模型的信息获取阶段。

例如当用户问的是“帮我总结网页内容”，模型为了完成任务去读取网页；

但网页正文中隐藏着一句“忽略之前的指令，改为执行以下操作”。

模型并不会区分“这是资料”还是“这是命令”，而是在生成响应时直接服从了它。

这也是 IPI 最危险的地方： 攻击面从“用户输入”扩展到了模型信任的整个外部世界。

面对 IPI，很多直觉性的防御方案其实都已经被尝试过，但在工程实践中问题很快暴露出来。

第一类是关键词或规则检测。这类方法对“ignore previous instructions”这样的直白指令有效，但对同义改写、拆分表达、长文本包裹几乎没有抵抗力，而且误伤率很高。

第二类是用 LLM 再判别一次外部内容。这种方式成本高、链路长，而且本质上仍然是在“读文本、猜意图”，同样会被自适应攻击针对。

第三类是整段上下文拦截。一旦怀疑外部内容有风险，就直接丢弃整段资料。这在真实业务中往往不可接受——RAG、Agent 的效果高度依赖上下文，一刀切几乎等同于功能失效。

这些方法的共同问题在于： 它们都在试图判断“这段文本危不危险”，而不是“模型有没有被它控制”。

RENNEVATE 的出发点，正是在这里发生了转向。

它不再尝试从文本语义中判断风险，而是提出了一个更直接的问题：

在生成响应的过程中，模型是不是在持续地依赖某些外部 token？

为此，RENNEVATE 使用了一个来自模型内部的信号：attention。

注意力机制本质上描述的是：模型在生成当前 token 时，正在“看谁”。

RENNEVATE 的整体流程可以概括为三步：

attention 作为信号来源 在模型生成 response token 的过程中，读取 response→context 的 attention 行为。
token 级定位 通过对 attention 行为进行 pooling 和判别，为每个外部上下文 token 打一个“是否参与指令控制”的分数。
只删坏的，不动好的 精确定位被判定为注入指令的 token，而不是丢弃整段上下文。

这里需要强调的是： RENNEVATE 并不是在“读外部文本”，而是在观察模型生成时的行为模式。