Pra-pelatihan di bawah komputasi tak terbatas • Data, bukan komputasi, adalah kemacetan baru • Resep standar overfit → diperbaiki dengan regularisasi yang kuat (30× penurunan berat) • Hukum penskalaan: kerugian menurun secara monoton, paling baik diukur dengan asimtot bukan anggaran tetap