"Brian Roemmele ifrågasätter användningen av internetdata av låg kvalitet som Reddit för AI-träning, och hävdar att det introducerar statistiskt brus med "lågt proteininnehåll" som förvränger ordassociationer, med stöd av hans analys av öppna datamängder som Common Crawl.