Finalmente me he decidido a crear una herramienta para comparar las completaciones de modelos entrenados con SFT frente a los entrenados con RLHF. Este es un mini sitio para el libro de RLHF que he querido tener desde hace un tiempo. rlhfbook punto com barra biblioteca Siempre ha sido difícil decir qué hace el RLHF a un modelo dentro de un pipeline de post-entrenamiento más complejo. Las diferencias son sutiles más allá de la obvia adición de un mejor formato markdown. Esta parte sutil es un poco mejor escritura, un poco mejor estructura de contenido, y a menudo más color en la prosa. Aún hoy hay muy pocos modelos además de los que construimos en los últimos años en Ai2 para hacer esto (gracias a @huggingface por liberar más puntos de control intermedios). Generé para empezar 3 completaciones por 16 prompts a través de 18 modelos (9 pares de modelos SFT <-> RLHF'd) para mostrar el antes y el después. ¡Espero que esto sea un gran recurso para académicos y personas que están aprendiendo para tener una idea básica de cómo las diferentes técnicas de entrenamiento realmente cambian el modelo! Estoy feliz de desarrollar esto más a medida que lleguen los comentarios. Los datos se han liberado y tienen licencia permisiva (salvo el hecho de que algunas completaciones de Tulu tienen la licencia de Llama).