‘Brian Roemmele thách thức việc sử dụng dữ liệu internet chất lượng thấp như Reddit cho việc đào tạo AI, lập luận rằng nó giới thiệu "tiếng ồn thống kê thấp" làm biến dạng các liên kết từ, được hỗ trợ bởi phân tích của ông về các tập dữ liệu mở như Common Crawl’