estas ferramentas de IA parecem ótimas para a maioria das coisas, então por que são tão ruins no único domínio onde sou capaz de avaliar a qualidade?