‘Brian Roemmele sfida l'uso di dati internet di bassa qualità come Reddit per l'addestramento dell'AI, sostenendo che introduce rumore statistico "a basso contenuto proteico" che distorce le associazioni tra le parole, supportato dalla sua analisi di dataset aperti come Common Crawl’