3 分钟阅读

共识的代价：多 Agent 辩论不一定更聪明

一篇新论文揭开了同质化多 Agent 系统的失败机制：正确答案明明出现过，却在讨论中被多数意见吞掉了。

2026/05/15

共识的代价：多 Agent 辩论不一定更聪明

多 Agent 辩论的隐含假设：共识等于更接近真相

多 Agent 辩论背后的基本逻辑是：不同 Agent 会生成不同答案，再通过交换理由、互相审查、最终投票的方式过滤错误答案。论文把这种理想状态称为逻辑交叉验证，也就是每个 Agent 都会认真检查别人的推理，而不是简单服从多数意见。

但作者认为，现实中的同质化 Agent 往往并不会像人类专家委员会一样工作。它们可能共享同一种模型架构、训练数据、对齐偏好、指令遵循习惯和表达风格。换句话说，10 个 Agent 看起来是 10 个“人”，但底层可能只是同一个模型的 10 次采样。

这带来一个问题：如果这些 Agent 的错误来源并不独立，那么多数投票就未必能过滤错误。更糟糕的是，一旦错误答案在某一轮里变成多数意见，其他 Agent 可能会因为上下文里的多数信号而放弃自己的原始判断。论文把这个现象称为modal sycophancy，可以理解为“迎合模态答案”或“迎合多数答案”。

实验方案

这篇论文比较有价值的地方，在于它没有把多 Agent 辩论和单轮回答粗暴对比。因为多 Agent 辩论天然会多跑几轮，如果只和单轮回答比较，结果很容易看起来更好。

作者真正关心的问题是：多 Agent 辩论的收益到底来自“多轮修正”，还是来自“同行交流”？

为此，论文设计了三种机制：

标准多 Agent 辩论：10 个 Agent 第一轮各自回答，第二轮和第三轮能看到其他 9 个 Agent 的答案、置信度和简短理由，然后更新自己的答案。
随机噪声注入：给 Agent 注入来自无关题目的推理文本，用来判断模型性能变化到底是不是因为“有效同行意见”。
孤立自我修正：Agent 只看自己的上一轮答案，并根据自我修正提示重新作答，不接触其他 Agent 的答案。

实验结果

从整体准确率看，多 Agent 辩论并没有稳定超过自我修正。

以 Qwen2.5-7B 在 GSM-Hard 上的结果为例，单轮 baseline 是 25.6%，多 Agent debate 是 58.8%，表面看提升很大。但 self-correction 达到 61.0%，noise control 甚至达到 63.2%。这说明 Qwen 的提升主要来自多轮 revision，而不是来自同行辩论本身。