W końcu udało mi się stworzyć narzędzie do porównywania wyników modeli trenowanych metodą SFT i RLHF. To jest mini strona dla książki o RLHF, na którą czekałem od jakiegoś czasu. rlhfbook dot com slash library Zawsze było trudno określić, co RLHF robi z modelem w bardziej złożonym procesie po treningu. Różnice są subtelne poza oczywistym dodatkiem lepszego formatowania markdown. Ta subtelna część to nieco lepsze pisanie, nieco lepsza struktura treści i często więcej koloru w prozie. Nadal dzisiaj jest bardzo mało modeli, poza tymi, które zbudowaliśmy w ostatnich kilku latach w Ai2, które to robią (ukłony dla @huggingface za udostępnienie większej liczby pośrednich punktów kontrolnych). Wygenerowałem na początek 3 wyniki na 16 podpowiedzi w 18 modelach (9 par modeli SFT <-> RLHF), aby pokazać przed i po. Mam nadzieję, że to będzie świetne źródło dla akademików i osób uczących się, aby uzyskać podstawowe pojęcie o tym, jak różne techniki treningowe faktycznie zmieniają model. Chętnie rozbuduję to dalej, gdy przyjdą opinie! Dane są udostępnione i licencjonowane w sposób liberalny (z wyjątkiem faktu, że niektóre wyniki Tulu mają licencję Llama).