Já estamos dizendo isso há algum tempo e, finalmente, todos estão se atualizando: mais raciocínio ≠ mais confiabilidade. Novo estudo empírico confirma que a escala do tempo de teste falha para tarefas factuais - platôs de precisão enquanto as alucinações geralmente aumentam. Quando os erros caem, é por abstenção, não por lembrança aprimorada. Cadeias estendidas amplificam o viés de confirmação, fabricando evidências para apoiar respostas erradas. É por isso que a infraestrutura de verificação é importante. Você não pode raciocinar para sair das alucinações, você precisa de mecanismos de consenso.