我们已经说了很长一段时间了,最终每个人都在赶上:更多的推理 ≠ 更高的可靠性。 新的实证研究确认,在事实任务中,测试时间的扩展失败——准确性停滞不前,而幻觉往往增加。当错误确实减少时,原因是避免,而不是改进的回忆。扩展链条放大了确认偏误,伪造证据以支持错误答案。 这就是为什么验证基础设施很重要。你无法通过推理摆脱幻觉,你需要共识机制。