Finalmente me puse a hacer una herramienta para comparar las terminaciones de SFT con modelos entrenados en RLHF. Este es un mini sitio para el libro de RLHF que he querido por un tiempo. Biblioteca de barras de rlhfbook punto com Siempre ha sido difícil decir qué hace RLHF a un modelo dentro de una canalización posterior al entrenamiento más compleja. Las diferencias son sutiles más allá de la adición obvia de un mejor formato de rebajas. Esta parte sutil es un poco mejor de escritura, un poco mejor estructura de contenido y, a menudo, más color en la prosa. Todavía hoy en día hay muy pocos modelos aparte de los que construimos en los últimos años en Ai2 para hacer esto (gracias a @huggingface por liberar más puntos de control intermedios). Generé para iniciar 3 finalizaciones por cada 16 indicaciones en 18 modelos (9 pares de modelos SFT <-> RLHF) para mostrar el antes y el después. Con suerte, este es un gran recurso para académicos y personas que aprenden a tener una idea básica de cómo las diferentes técnicas de capacitación realmente cambian el modelo. ¡Estoy feliz de desarrollar esto aún más a medida que llegan los comentarios! Los datos se publican y se licencian permisivamente (salvo el hecho de que algunas terminaciones de Tulu tienen la licencia Llama).