‘Brian Roemmele desafia o uso de dados de internet de baixa qualidade, como o Reddit, para o treinamento de IA, argumentando que isso introduz ruído estatístico de "baixo teor proteico" que distorce associações de palavras, apoiado por sua análise de conjuntos de dados abertos como o Common Crawl’