是否可以僅使用純強化學習從零開始預訓練一個語言模型? 隨機權重,沒有交叉熵損失的預訓練。 你可能腦中有很多問題。
119.56K