跳到正文
3 分钟阅读

共识的代价:多 Agent 辩论不一定更聪明

一篇新论文揭开了同质化多 Agent 系统的失败机制:正确答案明明出现过,却在讨论中被多数意见吞掉了。

2026/05/15

共识的代价:多 Agent 辩论不一定更聪明

多 Agent 辩论的隐含假设:共识等于更接近真相

多 Agent 辩论背后的基本逻辑是:不同 Agent 会生成不同答案,再通过交换理由、互相审查、最终投票的方式过滤错误答案。论文把这种理想状态称为逻辑交叉验证,也就是每个 Agent 都会认真检查别人的推理,而不是简单服从多数意见。

但作者认为,现实中的同质化 Agent 往往并不会像人类专家委员会一样工作。它们可能共享同一种模型架构、训练数据、对齐偏好、指令遵循习惯和表达风格。换句话说,10 个 Agent 看起来是 10 个“人”,但底层可能只是同一个模型的 10 次采样。

这带来一个问题:如果这些 Agent 的错误来源并不独立,那么多数投票就未必能过滤错误。更糟糕的是,一旦错误答案在某一轮里变成多数意见,其他 Agent 可能会因为上下文里的多数信号而放弃自己的原始判断。论文把这个现象称为modal sycophancy,可以理解为“迎合模态答案”或“迎合多数答案”。

实验方案

这篇论文比较有价值的地方,在于它没有把多 Agent 辩论和单轮回答粗暴对比。因为多 Agent 辩论天然会多跑几轮,如果只和单轮回答比较,结果很容易看起来更好。

作者真正关心的问题是:多 Agent 辩论的收益到底来自“多轮修正”,还是来自“同行交流”?

为此,论文设计了三种机制:

  1. 标准多 Agent 辩论:10 个 Agent 第一轮各自回答,第二轮和第三轮能看到其他 9 个 Agent 的答案、置信度和简短理由,然后更新自己的答案。
  2. 随机噪声注入:给 Agent 注入来自无关题目的推理文本,用来判断模型性能变化到底是不是因为“有效同行意见”。
  3. 孤立自我修正:Agent 只看自己的上一轮答案,并根据自我修正提示重新作答,不接触其他 Agent 的答案。

实验结果

从整体准确率看,多 Agent 辩论并没有稳定超过自我修正。

以 Qwen2.5-7B 在 GSM-Hard 上的结果为例,单轮 baseline 是 25.6%,多 Agent debate 是 58.8%,表面看提升很大。但 self-correction 达到 61.0%,noise control 甚至达到 63.2%。这说明 Qwen 的提升主要来自多轮 revision,而不是来自同行辩论本身。

结论

论文认为,多 Agent 辩论的隐含假设——“多数意见更接近正确答案”——在同质化系统里并不成立。无引导、同质化多 Agent 辩论可能更容易形成错误共识。作者建议,如果要使用多 Agent 辩论,必须引入异质化设计,避免模型陷入“迎合多数”的陷阱。

讨论

  • 异质化设计:引入不同架构、不同训练数据、不同对齐策略的 Agent,避免同质化。
  • 引导机制:设计引导问题,避免 Agent 直接模仿多数意见。
  • 多轮独立思考:增加 Agent 的独立思考轮次,减少直接看其他 Agent 答案的频率。

参考

图1:多 Agent 辩论的理论假设与现实

图2:实验设计对比

图3:准确率对比

图4:错误率对比

图5:多轮讨论过程

图6:错误答案传播过程

图7:不同模型对比

图8:多轮讨论中的多数迎合现象

图9:不同任务上的表现差异

同专题推荐

查看专题