Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Нарешті я дійшов до створення інструменту для порівняння комплектацій з моделей, навчених SFT і RLHF. Це міні-сайт для книги RLHF, яку я давно хотів.
RLHFBOOK Dot com Бібліотека слешів
Завжди було важко сказати, що RLHF робить з моделлю в рамках більш складного конвеєра після тренування. Відмінності незначні, крім очевидного додавання кращого форматування Markdown. Ця тонка частина – це трохи краще написання, трохи краща структура контенту і часто більше кольору в прозі.
До сих пір існує дуже мало моделей, крім тих, які ми побудували за останні кілька років в Ai2 для цього (реквізит для @huggingface для випуску більшої кількості проміжних контрольних точок). Я згенерував для початку 3 завершення на 16 підказок для 18 моделей (9 пар моделей SFT <-> RLHF'd), щоб показати до та після.
Сподіваюся, це чудовий ресурс для науковців і людей, які вчаться отримати базове уявлення про те, як різні методи навчання насправді змінюють модель. Я з радістю розвиватиму це далі, коли надходитиме зворотний зв'язок!
Дані оприлюднюються та ліцензуються на умовах дозвільної ліцензії (за винятком того факту, що деякі комплектації Tulu мають ліцензію Llama).


Найкращі
Рейтинг
Вибране