Я наконец-то создал инструмент для сравнения завершений моделей, обученных с помощью SFT и RLHF. Это мини-сайт для книги RLHF, который я хотел сделать уже давно. rlhfbook dot com slash library Всегда было трудно сказать, что RLHF делает с моделью в более сложном пост-тренировочном процессе. Различия тонкие, помимо очевидного улучшения форматирования markdown. Эта тонкая часть — это немного лучшее письмо, немного лучшая структура контента и часто больше выразительности в прозе. До сих пор существует очень мало моделей, кроме тех, которые мы создали за последние несколько лет в Ai2, чтобы это сделать (благодарности @huggingface за выпуск большего количества промежуточных контрольных точек). Я сгенерировал 3 завершения на 16 подсказок для 18 моделей (9 пар моделей SFT <-> RLHF), чтобы показать до и после. Надеюсь, это станет отличным ресурсом для ученых и людей, обучающихся, чтобы получить общее представление о том, как различные техники обучения на самом деле изменяют модель. Я рад развивать это дальше по мере поступления отзывов! Данные опубликованы и имеют разрешительную лицензию (за исключением того факта, что некоторые завершения Tulu имеют лицензию Llama).