We zeggen dit al een tijdje en eindelijk haalt iedereen in: meer redenering ≠ meer betrouwbaarheid. Een nieuwe empirische studie bevestigt dat schaling tijdens de testtijd faalt voor feitelijke taken — de nauwkeurigheid plateauert terwijl hallucinaties vaak toenemen. Wanneer fouten wel afnemen, is dat door onthouding, niet door verbeterde herinnering. Uitgebreide ketens versterken de bevestigingsbias, waarbij bewijs wordt gefabriceerd om verkeerde antwoorden te ondersteunen. Dit is waarom verificatie-infrastructuur belangrijk is. Je kunt niet redeneren je weg uit hallucinaties, je hebt consensusmechanismen nodig.