"Brian Roemmele contestă utilizarea datelor de internet de calitate scăzută, cum ar fi Reddit, pentru antrenamentul AI, argumentând că introduce zgomot statistic "cu conținut scăzut de proteine" care distorsionează asocierile de cuvinte, susținut de analiza sa a seturilor de date deschise precum Common Crawl"