熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
有趣的帖子。RL中的比特/FLOP比預訓練低3-6個數量級。
儘管@tamaybes指出,RL中的比特可以針對你想要學習的特定技能。而預訓練只是將這些比特分配到學習隨機的ASCII關係和一百萬個其他無關的事物上。
此外,對於任何給定的任務,有很多決策其具體執行並不太重要,而有幾個你真的想要做到完美。RL可以集中信號,學習如何不在劇集中的關鍵狀態上搞砸,而不是每個單獨的標記都正確。來自@svlevine的一堂舊課的有用圖像(B是關鍵狀態):
我認為這仍然意味著RL的信息密度遠低於預訓練。我同意Toby的觀點,即RL環境訓練每FLOP的智力增益將低於許多人所假設的。
正在與@EgeErdil2、@MatthewJBar和@tamaybes一起撰寫關於此的帖子。希望我們下週能發佈。


熱門
排行
收藏