‘Brian Roemmele desafía el uso de datos de internet de baja calidad como Reddit para el entrenamiento de IA, argumentando que introduce ruido estadístico de "bajo contenido proteico" que distorsiona las asociaciones de palabras, respaldado por su análisis de conjuntos de datos abiertos como Common Crawl’