J'ai enfin pris le temps de créer un outil pour comparer les complétions des modèles entraînés par SFT et RLHF. C'est un mini site pour le livre RLHF que je voulais depuis un moment. rlhfbook point com slash library Il a toujours été difficile de dire ce que RLHF fait à un modèle dans un pipeline post-entraînement plus complexe. Les différences sont subtiles au-delà de l'ajout évident d'un meilleur formatage markdown. Cette partie subtile est un peu mieux écrite, un peu mieux structurée, et souvent avec plus de couleur dans la prose. Encore aujourd'hui, il y a très peu de modèles autres que ceux que nous avons construits au cours des dernières années chez Ai2 pour faire cela (merci à @huggingface pour avoir publié plus de points de contrôle intermédiaires). J'ai généré pour commencer 3 complétions par 16 invites à travers 18 modèles (9 paires de modèles SFT <-> RLHF) pour montrer le avant et après. J'espère que cela sera une excellente ressource pour les universitaires et les personnes apprenant à avoir une idée de base sur la façon dont différentes techniques d'entraînement changent réellement le modèle. Je suis heureux de développer cela davantage à mesure que les retours arrivent ! Les données sont publiées et sous licence permissive (à l'exception du fait que certaines complétions Tulu ont la licence Llama).