在无限计算下进行预训练 • 数据,而不是计算,是新的瓶颈 • 标准配方过拟合 → 通过强正则化修复(30× 权重衰减) • 扩展法则:损失单调减少,最好通过渐近线而不是固定预算来衡量