Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я наконец-то создал инструмент для сравнения завершений моделей, обученных с помощью SFT и RLHF. Это мини-сайт для книги RLHF, который я хотел сделать уже давно.
rlhfbook dot com slash library
Всегда было трудно сказать, что RLHF делает с моделью в более сложном пост-тренировочном процессе. Различия тонкие, помимо очевидного улучшения форматирования markdown. Эта тонкая часть — это немного лучшее письмо, немного лучшая структура контента и часто больше выразительности в прозе.
До сих пор существует очень мало моделей, кроме тех, которые мы создали за последние несколько лет в Ai2, чтобы это сделать (благодарности @huggingface за выпуск большего количества промежуточных контрольных точек). Я сгенерировал 3 завершения на 16 подсказок для 18 моделей (9 пар моделей SFT <-> RLHF), чтобы показать до и после.
Надеюсь, это станет отличным ресурсом для ученых и людей, обучающихся, чтобы получить общее представление о том, как различные техники обучения на самом деле изменяют модель. Я рад развивать это дальше по мере поступления отзывов!
Данные опубликованы и имеют разрешительную лицензию (за исключением того факта, что некоторые завершения Tulu имеют лицензию Llama).


Топ
Рейтинг
Избранное