"Brian Roemmele menantang penggunaan data internet berkualitas rendah seperti Reddit untuk pelatihan AI, dengan alasan itu memperkenalkan kebisingan statistik "protein rendah" yang mendistorsi asosiasi kata, didukung oleh analisisnya tentang kumpulan data terbuka seperti Common Crawl"