一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

我終於抽出時間製作了一個工具，用於比較 SFT 和 RLHF 訓練模型的完成情況。這是我一直想要的 RLHF 書籍的迷你網站。 rlhfbook dot com slash library 在更複雜的後期訓練流程中，很難說 RLHF 對模型的影響。除了明顯的更好的 markdown 格式外，差異是微妙的。這種微妙之處在於寫作稍微更好，內容結構稍微更好，通常在文筆中也更有色彩。直到今天，除了我們在 Ai2 最近幾年構建的模型外，幾乎沒有其他模型能夠做到這一點（感謝 @huggingface 發佈更多中間檢查點）。我生成了每 16 個提示 3 個完成，跨 18 個模型（9 對 SFT <-> RLHF 模型），以展示前後的對比。這希望能成為學術界和學習者的一個很好的資源，讓他們對不同訓練技術如何實際改變模型有一個基本的瞭解。隨著反饋的到來，我很高興能進一步擴展這個項目！數據已發佈並獲得寬鬆許可（除了某些 Tulu 完成具有 Llama 許可證的事實）。