"يتحدى بريان روميل استخدام بيانات الإنترنت منخفضة الجودة مثل Reddit للتدريب على الذكاء الاصطناعي ، بحجة أنه يقدم ضوضاء إحصائية "منخفضة البروتين" تشوه ارتباطات الكلمات ، مدعومة بتحليله لمجموعات البيانات المفتوحة مثل Common Crawl"