DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

În cele din urmă am reușit să fac un instrument pentru a compara finalizările din SFT vs. modele antrenate RLHF. Acesta este un mini site pentru cartea RLHF pe care mi-o doream de ceva vreme. rlhfbook dot com bibliotecă de bară oblică Întotdeauna a fost greu de spus ce face RLHF unui model dintr-o conductă post-antrenament mai complexă. Diferențele sunt subtile dincolo de adăugarea evidentă a unei formatări mai bune a markdown-ului. Această parte subtilă este o scriere puțin mai bună, o structură de conținut puțin mai bună și adesea mai multă culoare în proză. Încă astăzi există foarte puține modele în afară de cele pe care le-am construit în ultimii ani la Ai2 pentru a face acest lucru (recuzită pentru @huggingface pentru eliberarea mai multor puncte de control intermediare). Am generat pentru a începe 3 finalizări la 16 solicitări pe 18 modele (9 perechi de modele SFT <-> RLHF) pentru a arăta înainte și după. Sperăm că aceasta este o resursă excelentă pentru academicieni și oameni care învață să înțeleagă o idee de bază despre modul în care diferitele tehnici de antrenament schimbă de fapt modelul. Sunt fericit să construiesc acest lucru mai departe pe măsură ce vin feedback-ul! Datele sunt eliberate și licențiate permisiv (cu excepția faptului că unele finalizări Tulu au licența Lama).

Limită superioară

Clasament

Favorite