前沿模型的极端低效性 🧵 将前沿模型的训练从下一个标记预测切换到强化学习(RL)需要每获取一比特信息的计算量增加1,000到1,000,000倍。 1/11