热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我终于抽出时间制作了一个工具,用于比较 SFT 和 RLHF 训练模型的完成情况。这是我一直想要的 RLHF 书籍的迷你网站。
rlhfbook dot com slash library
在更复杂的后期训练流程中,很难说 RLHF 对模型的影响。除了明显的更好的 markdown 格式外,差异是微妙的。这种微妙之处在于写作稍微更好,内容结构稍微更好,通常在文笔中也更有色彩。
直到今天,除了我们在 Ai2 最近几年构建的模型外,几乎没有其他模型能够做到这一点(感谢 @huggingface 发布更多中间检查点)。我生成了每 16 个提示 3 个完成,跨 18 个模型(9 对 SFT <-> RLHF 模型),以展示前后的对比。
这希望能成为学术界和学习者的一个很好的资源,让他们对不同训练技术如何实际改变模型有一个基本的了解。随着反馈的到来,我很高兴能进一步扩展这个项目!
数据已发布并获得宽松许可(除了某些 Tulu 完成具有 Llama 许可证的事实)。


热门
排行
收藏