是否可以仅使用纯强化学习从头开始预训练一个语言模型? 随机权重,没有交叉熵损失的预训练。 你可能脑海中有很多问题。
119.54K