‘Brian Roemmele kwestionuje użycie niskiej jakości danych internetowych, takich jak Reddit, do szkolenia AI, argumentując, że wprowadza to "niskobiałkowy" szum statystyczny, który zniekształca skojarzenia słów, co potwierdza jego analiza otwartych zbiorów danych, takich jak Common Crawl’