‘Brian Roemmele remet en question l'utilisation de données Internet de faible qualité comme Reddit pour l'entraînement de l'IA, arguant que cela introduit un bruit statistique de "faible protéine" qui déforme les associations de mots, soutenu par son analyse de jeux de données ouverts comme Common Crawl’