Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
W końcu udało mi się stworzyć narzędzie do porównywania wyników modeli trenowanych metodą SFT i RLHF. To jest mini strona dla książki o RLHF, na którą czekałem od jakiegoś czasu.
rlhfbook dot com slash library
Zawsze było trudno określić, co RLHF robi z modelem w bardziej złożonym procesie po treningu. Różnice są subtelne poza oczywistym dodatkiem lepszego formatowania markdown. Ta subtelna część to nieco lepsze pisanie, nieco lepsza struktura treści i często więcej koloru w prozie.
Nadal dzisiaj jest bardzo mało modeli, poza tymi, które zbudowaliśmy w ostatnich kilku latach w Ai2, które to robią (ukłony dla @huggingface za udostępnienie większej liczby pośrednich punktów kontrolnych). Wygenerowałem na początek 3 wyniki na 16 podpowiedzi w 18 modelach (9 par modeli SFT <-> RLHF), aby pokazać przed i po.
Mam nadzieję, że to będzie świetne źródło dla akademików i osób uczących się, aby uzyskać podstawowe pojęcie o tym, jak różne techniki treningowe faktycznie zmieniają model. Chętnie rozbuduję to dalej, gdy przyjdą opinie!
Dane są udostępnione i licencjonowane w sposób liberalny (z wyjątkiem faktu, że niektóre wyniki Tulu mają licencję Llama).


Najlepsze
Ranking
Ulubione