Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pääsin vihdoin tekemään työkalun, jolla voit verrata SFT:n ja RLHF:n koulutettujen mallien valmistumisia. Tämä on minisivusto RLHF-kirjalle, jota olen halunnut jo jonkin aikaa.
rlhfbook dot com vinoviiva kirjasto
On aina ollut vaikea sanoa, mitä RLHF tekee mallille monimutkaisemmassa koulutuksen jälkeisessä putkessa. Erot ovat hienovaraisia paremman markdown-muotoilun ilmeisen lisäämisen lisäksi. Tämä hienovarainen osa on hieman parempi kirjoitus, hieman parempi sisältörakenne ja usein enemmän väriä proosassa.
Vielä tänäkin päivänä on hyvin vähän muita malleja kuin ne, jotka olemme rakentaneet viime vuosina Ai2:ssa tähän (rekvisiitta @huggingface välitarkistuspisteiden vapauttamisesta). Aloitin 3 täydennystä 16 kehotetta kohden 18 mallissa (9 paria SFT-<-> RLHF-malleja) näyttääkseni ennen ja jälkeen.
Tämä on toivottavasti loistava resurssi tutkijoille ja ihmisille, jotka oppivat saamaan peruskäsityksen siitä, miten erilaiset koulutustekniikat todella muuttavat mallia. Olen iloinen voidessani kehittää tätä edelleen, kun palautetta tulee!
Tiedot julkaistaan ja lisensoidaan sallivasti (lukuun ottamatta sitä tosiasiaa, että joillakin Tulu-suorituksilla on laamalisenssi).


Johtavat
Rankkaus
Suosikit