«Брайан Роеммеле кидає виклик використанню низькоякісних інтернет-даних, таких як Reddit, для навчання штучного інтелекту, стверджуючи, що він вносить статистичний шум з «низьким вмістом білка», який спотворює асоціації слів, що підтверджується його аналізом відкритих наборів даних, таких як Common Crawl»