Предварительное обучение с бесконечными вычислениями • Данные, а не вычисления, являются новым узким местом • Стандартные рецепты переобучаются → исправить с помощью сильной регуляризации (30× уменьшение веса) • Законы масштабирования: потеря уменьшается монотонно, лучше всего измеряется асимптотой, а не фиксированным бюджетом