一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我终于抽出时间制作了一个工具，用于比较 SFT 和 RLHF 训练模型的完成情况。这是我一直想要的 RLHF 书籍的迷你网站。 rlhfbook dot com slash library 在更复杂的后期训练流程中，很难说 RLHF 对模型的影响。除了明显的更好的 markdown 格式外，差异是微妙的。这种微妙之处在于写作稍微更好，内容结构稍微更好，通常在文笔中也更有色彩。直到今天，除了我们在 Ai2 最近几年构建的模型外，几乎没有其他模型能够做到这一点（感谢 @huggingface 发布更多中间检查点）。我生成了每 16 个提示 3 个完成，跨 18 个模型（9 对 SFT <-> RLHF 模型），以展示前后的对比。这希望能成为学术界和学习者的一个很好的资源，让他们对不同训练技术如何实际改变模型有一个基本的了解。随着反馈的到来，我很高兴能进一步扩展这个项目！数据已发布并获得宽松许可（除了某些 Tulu 完成具有 Llama 许可证的事实）。