Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
În cele din urmă am reușit să fac un instrument pentru a compara finalizările din SFT vs. modele antrenate RLHF. Acesta este un mini site pentru cartea RLHF pe care mi-o doream de ceva vreme.
rlhfbook dot com bibliotecă de bară oblică
Întotdeauna a fost greu de spus ce face RLHF unui model dintr-o conductă post-antrenament mai complexă. Diferențele sunt subtile dincolo de adăugarea evidentă a unei formatări mai bune a markdown-ului. Această parte subtilă este o scriere puțin mai bună, o structură de conținut puțin mai bună și adesea mai multă culoare în proză.
Încă astăzi există foarte puține modele în afară de cele pe care le-am construit în ultimii ani la Ai2 pentru a face acest lucru (recuzită pentru @huggingface pentru eliberarea mai multor puncte de control intermediare). Am generat pentru a începe 3 finalizări la 16 solicitări pe 18 modele (9 perechi de modele SFT <-> RLHF) pentru a arăta înainte și după.
Sperăm că aceasta este o resursă excelentă pentru academicieni și oameni care învață să înțeleagă o idee de bază despre modul în care diferitele tehnici de antrenament schimbă de fapt modelul. Sunt fericit să construiesc acest lucru mai departe pe măsură ce vin feedback-ul!
Datele sunt eliberate și licențiate permisiv (cu excepția faptului că unele finalizări Tulu au licența Lama).


Limită superioară
Clasament
Favorite