熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
我終於抽出時間製作了一個工具,用於比較 SFT 和 RLHF 訓練模型的完成情況。這是我一直想要的 RLHF 書籍的迷你網站。
rlhfbook dot com slash library
在更複雜的後期訓練流程中,很難說 RLHF 對模型的影響。除了明顯的更好的 markdown 格式外,差異是微妙的。這種微妙之處在於寫作稍微更好,內容結構稍微更好,通常在文筆中也更有色彩。
直到今天,除了我們在 Ai2 最近幾年構建的模型外,幾乎沒有其他模型能夠做到這一點(感謝 @huggingface 發佈更多中間檢查點)。我生成了每 16 個提示 3 個完成,跨 18 個模型(9 對 SFT <-> RLHF 模型),以展示前後的對比。
這希望能成為學術界和學習者的一個很好的資源,讓他們對不同訓練技術如何實際改變模型有一個基本的瞭解。隨著反饋的到來,我很高興能進一步擴展這個項目!
數據已發佈並獲得寬鬆許可(除了某些 Tulu 完成具有 Llama 許可證的事實)。


熱門
排行
收藏