Till slut kom jag mig för att göra ett verktyg för att jämföra kompletteringar från SFT vs. RLHF-tränade modeller. Det här är en minisida för RLHF-boken som jag har velat ha ett tag. rlhfbook dot com snedstreck bibliotek Det har alltid varit svårt att säga vad RLHF gör med en modell i en mer komplex pipeline efter träning. Skillnaderna är subtila utöver det uppenbara tillägget av bättre markdown-formatering. Denna subtila del är lite bättre skrivande, lite bättre innehållsstruktur och ofta mer färg i prosan. Än idag finns det väldigt få andra modeller än de vi byggt under de senaste åren på Ai2 för att göra detta (props till @huggingface för att släppa fler mellanliggande checkpoints). Jag genererade för att starta 3 kompletteringar per 16 uppmaningar över 18 modeller (9 par SFT <-> RLHF'd modeller) för att visa före och efter. Detta är förhoppningsvis en bra resurs för akademiker och personer som lär sig för att få en grundläggande känsla för hur olika träningstekniker faktiskt förändrar modellen. Jag är glad att bygga ut detta ytterligare när feedback kommer in! Data släpps och licensieras tillåtande (med undantag för det faktum att vissa Tulu-kompletteringar har Lama-licensen).