我終於抽出時間製作了一個工具,用於比較 SFT 和 RLHF 訓練模型的完成情況。這是我一直想要的 RLHF 書籍的迷你網站。 rlhfbook dot com slash library 在更複雜的後期訓練流程中,很難說 RLHF 對模型的影響。除了明顯的更好的 markdown 格式外,差異是微妙的。這種微妙之處在於寫作稍微更好,內容結構稍微更好,通常在文筆中也更有色彩。 直到今天,除了我們在 Ai2 最近幾年構建的模型外,幾乎沒有其他模型能夠做到這一點(感謝 @huggingface 發佈更多中間檢查點)。我生成了每 16 個提示 3 個完成,跨 18 個模型(9 對 SFT <-> RLHF 模型),以展示前後的對比。 這希望能成為學術界和學習者的一個很好的資源,讓他們對不同訓練技術如何實際改變模型有一個基本的瞭解。隨著反饋的到來,我很高興能進一步擴展這個項目! 數據已發佈並獲得寬鬆許可(除了某些 Tulu 完成具有 Llama 許可證的事實)。