Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Finalmente consegui criar uma ferramenta para comparar as conclusões de modelos treinados com SFT e RLHF. Este é um mini site para o livro RLHF que eu queria há algum tempo.
rlhfbook ponto com barra biblioteca
Sempre foi difícil dizer o que o RLHF faz a um modelo dentro de um pipeline de pós-treinamento mais complexo. As diferenças são sutis além da óbvia adição de uma melhor formatação em markdown. Esta parte sutil é uma escrita um pouco melhor, uma estrutura de conteúdo um pouco melhor e, muitas vezes, mais cor na prosa.
Ainda hoje, há muito poucos modelos além daqueles que construímos nos últimos anos na Ai2 para fazer isso (parabéns ao @huggingface por liberar mais pontos de verificação intermediários). Eu gerei para começar 3 conclusões por 16 prompts em 18 modelos (9 pares de modelos SFT <-> RLHF'd) para mostrar o antes e o depois.
Espero que isso seja um ótimo recurso para acadêmicos e pessoas que estão aprendendo a ter uma noção básica de como diferentes técnicas de treinamento realmente mudam o modelo. Estou feliz em desenvolver isso ainda mais à medida que o feedback chega!
Os dados são liberados e licenciados de forma permissiva (exceto pelo fato de que algumas conclusões de Tulu têm a licença Llama).


Top
Classificação
Favoritos