Мы говорим об этом уже некоторое время, и наконец все начинают понимать: больше рассуждений ≠ больше надежности. Новое эмпирическое исследование подтверждает, что масштабирование во время тестирования не работает для фактических задач — точность достигает плато, в то время как галлюцинации часто увеличиваются. Когда ошибки действительно уменьшаются, это происходит из-за воздержания, а не улучшения воспоминаний. Расширенные цепочки усиливают подтверждающее предвзятость, фабрикуя доказательства в поддержку неверных ответов. Вот почему важна инфраструктура верификации. Вы не можете рассуждать, чтобы избавиться от галлюцинаций, вам нужны механизмы консенсуса.