Finalmente mi sono dedicato a creare uno strumento per confrontare le completazioni dei modelli addestrati con SFT rispetto a quelli addestrati con RLHF. Questo è un mini sito per il libro RLHF che desideravo da un po'. rlhfbook dot com slash library È sempre stato difficile dire cosa faccia RLHF a un modello all'interno di un pipeline post-addestramento più complesso. Le differenze sono sottili oltre all'evidente aggiunta di una migliore formattazione markdown. Questa parte sottile è una scrittura un po' migliore, una struttura dei contenuti un po' migliore e spesso più colore nella prosa. Ancora oggi ci sono molto pochi modelli oltre a quelli che abbiamo costruito negli ultimi anni in Ai2 per fare questo (un ringraziamento a @huggingface per aver rilasciato più checkpoint intermedi). Ho generato per iniziare 3 completazioni per 16 prompt su 18 modelli (9 coppie di modelli SFT <-> RLHF'd) per mostrare il prima e il dopo. Spero che questo sia una grande risorsa per accademici e persone che stanno imparando a ottenere una comprensione di base di come le diverse tecniche di addestramento cambiano effettivamente il modello. Sono felice di sviluppare ulteriormente questo progetto man mano che arrivano i feedback! I dati sono stati rilasciati e concessi in licenza in modo permissivo (salvo il fatto che alcune completazioni Tulu hanno la licenza Llama).