我终于抽出时间制作了一个工具,用于比较 SFT 和 RLHF 训练模型的完成情况。这是我一直想要的 RLHF 书籍的迷你网站。 rlhfbook dot com slash library 在更复杂的后期训练流程中,很难说 RLHF 对模型的影响。除了明显的更好的 markdown 格式外,差异是微妙的。这种微妙之处在于写作稍微更好,内容结构稍微更好,通常在文笔中也更有色彩。 直到今天,除了我们在 Ai2 最近几年构建的模型外,几乎没有其他模型能够做到这一点(感谢 @huggingface 发布更多中间检查点)。我生成了每 16 个提示 3 个完成,跨 18 个模型(9 对 SFT <-> RLHF 模型),以展示前后的对比。 这希望能成为学术界和学习者的一个很好的资源,让他们对不同训练技术如何实际改变模型有一个基本的了解。随着反馈的到来,我很高兴能进一步扩展这个项目! 数据已发布并获得宽松许可(除了某些 Tulu 完成具有 Llama 许可证的事实)。