Pääsin vihdoin tekemään työkalun, jolla voit verrata SFT:n ja RLHF:n koulutettujen mallien valmistumisia. Tämä on minisivusto RLHF-kirjalle, jota olen halunnut jo jonkin aikaa. rlhfbook dot com vinoviiva kirjasto On aina ollut vaikea sanoa, mitä RLHF tekee mallille monimutkaisemmassa koulutuksen jälkeisessä putkessa. Erot ovat hienovaraisia paremman markdown-muotoilun ilmeisen lisäämisen lisäksi. Tämä hienovarainen osa on hieman parempi kirjoitus, hieman parempi sisältörakenne ja usein enemmän väriä proosassa. Vielä tänäkin päivänä on hyvin vähän muita malleja kuin ne, jotka olemme rakentaneet viime vuosina Ai2:ssa tähän (rekvisiitta @huggingface välitarkistuspisteiden vapauttamisesta). Aloitin 3 täydennystä 16 kehotetta kohden 18 mallissa (9 paria SFT-<-> RLHF-malleja) näyttääkseni ennen ja jälkeen. Tämä on toivottavasti loistava resurssi tutkijoille ja ihmisille, jotka oppivat saamaan peruskäsityksen siitä, miten erilaiset koulutustekniikat todella muuttavat mallia. Olen iloinen voidessani kehittää tätä edelleen, kun palautetta tulee! Tiedot julkaistaan ja lisensoidaan sallivasti (lukuun ottamatta sitä tosiasiaa, että joillakin Tulu-suorituksilla on laamalisenssi).