Nous avons dit cela depuis un certain temps maintenant et enfin tout le monde rattrape son retard : plus de raisonnement ≠ plus de fiabilité. Une nouvelle étude empirique confirme que l'augmentation de l'échelle au moment du test échoue pour les tâches factuelles — la précision atteint un plateau tandis que les hallucinations augmentent souvent. Lorsque les erreurs diminuent, c'est par abstention, pas par un meilleur rappel. Des chaînes prolongées amplifient le biais de confirmation, fabriquant des preuves pour soutenir de mauvaises réponses. C'est pourquoi l'infrastructure de vérification est importante. Vous ne pouvez pas raisonner votre chemin hors des hallucinations, vous avez besoin de mécanismes de consensus.