Pre-entrenamiento con computación infinita • Los datos, no la computación, son el nuevo cuello de botella • Las recetas estándar sobreajustan → arreglar con una fuerte regularización (30× de decaimiento de peso) • Leyes de escalado: la pérdida disminuye de manera monótona, mejor medida por el asintota no por un presupuesto fijo