共识的代价:多 Agent 辩论不一定更聪明
一篇新论文揭开了同质化多 Agent 系统的失败机制:正确答案明明出现过,却在讨论中被多数意见吞掉了。
共识的代价:多 Agent 辩论不一定更聪明
多 Agent 辩论的隐含假设:共识等于更接近真相
多 Agent 辩论背后的基本逻辑是:不同 Agent 会生成不同答案,再通过交换理由、互相审查、最终投票的方式过滤错误答案。论文把这种理想状态称为逻辑交叉验证,也就是每个 Agent 都会认真检查别人的推理,而不是简单服从多数意见。
但作者认为,现实中的同质化 Agent 往往并不会像人类专家委员会一样工作。它们可能共享同一种模型架构、训练数据、对齐偏好、指令遵循习惯和表达风格。换句话说,10 个 Agent 看起来是 10 个“人”,但底层可能只是同一个模型的 10 次采样。
这带来一个问题:如果这些 Agent 的错误来源并不独立,那么多数投票就未必能过滤错误。更糟糕的是,一旦错误答案在某一轮里变成多数意见,其他 Agent 可能会因为上下文里的多数信号而放弃自己的原始判断。论文把这个现象称为modal sycophancy,可以理解为“迎合模态答案”或“迎合多数答案”。
实验方案
这篇论文比较有价值的地方,在于它没有把多 Agent 辩论和单轮回答粗暴对比。因为多 Agent 辩论天然会多跑几轮,如果只和单轮回答比较,结果很容易看起来更好。
作者真正关心的问题是:多 Agent 辩论的收益到底来自“多轮修正”,还是来自“同行交流”?
为此,论文设计了三种机制:
- 标准多 Agent 辩论:10 个 Agent 第一轮各自回答,第二轮和第三轮能看到其他 9 个 Agent 的答案、置信度和简短理由,然后更新自己的答案。
- 随机噪声注入:给 Agent 注入来自无关题目的推理文本,用来判断模型性能变化到底是不是因为“有效同行意见”。
- 孤立自我修正:Agent 只看自己的上一轮答案,并根据自我修正提示重新作答,不接触其他 Agent 的答案。
实验结果
从整体准确率看,多 Agent 辩论并没有稳定超过自我修正。
以 Qwen2.5-7B 在 GSM-Hard 上的结果为例,单轮 baseline 是 25.6%,多 Agent debate 是 58.8%,表面看提升很大。但 self-correction 达到 61.0%,noise control 甚至达到 63.2%。这说明 Qwen 的提升主要来自多轮 revision,而不是来自同行辩论本身。
结论
论文认为,多 Agent 辩论的隐含假设——“多数意见更接近正确答案”——在同质化系统里并不成立。无引导、同质化多 Agent 辩论可能更容易形成错误共识。作者建议,如果要使用多 Agent 辩论,必须引入异质化设计,避免模型陷入“迎合多数”的陷阱。
讨论
- 异质化设计:引入不同架构、不同训练数据、不同对齐策略的 Agent,避免同质化。
- 引导机制:设计引导问题,避免 Agent 直接模仿多数意见。
- 多轮独立思考:增加 Agent 的独立思考轮次,减少直接看其他 Agent 答案的频率。
参考









同专题推荐
查看专题Anthropic 亲自下场做企业服务:当模型安全必须延伸到部署层
2025年5月,Anthropic宣布了一个令人意外的决定:联合黑石集团(Blackstone)、Hellman & Friedman和高盛(Goldman Sachs),成立一家独立的企业AI服务公司。
当 Agent 开始处理秘密:机密计算正在成为 AI Agent 的底层安全边界
过去讨论 Agent 安全,我们更多关注提示注入、越狱、工具滥用、记忆投毒、权限越界。