私はついに、SFTとRLHFトレーニング済みモデルの補完を比較するツールを作成するようになりました。これは、私が以前から欲しかったRLHFの本のミニサイトです。 RLHFbook ドットコムスラッシュライブラリ RLHF がより複雑なトレーニング後のパイプライン内のモデルに何をするかを言うことは常に困難でした。違いは、より良いマークダウンフォーマットの明らかな追加を超えて微妙です。この微妙な部分は、文章がもう少し良くなり、内容構造がもう少し良くなり、散文の色が増えることがよくあります。 今日でも、これを行うために過去数年間にAi2で構築したモデル以外に、ほとんどありません(より多くの中間チェックポイントをリリースするための@huggingfaceへの小道具)。18 モデル (SFT <-> RLHF モデルの 9 ペア) にわたって 16 プロンプトごとに 3 つの完了を開始するように生成し、前後を表示しました。 これは、さまざまなトレーニング手法が実際にモデルをどのように変えるかについての基本的な感覚を得るために学んでいる学者や人々にとって素晴らしいリソースになることを願っています。フィードバックが寄せられたら、これをさらに構築できることを嬉しく思います。 データは公開され、許可されます(一部のトゥルーコンプリートがLlamaライセンスを持っているという事実を除く)。