Finalmente consegui criar uma ferramenta para comparar as conclusões de modelos treinados em SFT e RLHF. Este é um mini site para o livro RLHF que eu queria há algum tempo. rlhfbook dot com biblioteca de barra Sempre foi difícil dizer o que o RLHF faz com um modelo dentro de um pipeline pós-treinamento mais complexo. As diferenças são sutis além da adição óbvia de melhor formatação de markdown. Essa parte sutil é uma escrita um pouco melhor, uma estrutura de conteúdo um pouco melhor e, muitas vezes, mais cor na prosa. Ainda hoje existem muito poucos modelos além daqueles que construímos nos últimos anos na Ai2 para fazer isso (adereços para @huggingface para liberar mais pontos de verificação intermediários). Eu gerei para iniciar 3 conclusões por 16 prompts em 18 modelos (9 pares de modelos SFT <-> RLHF) para mostrar o antes e o depois. Espero que este seja um ótimo recurso para acadêmicos e pessoas que estão aprendendo a ter uma noção básica de como diferentes técnicas de treinamento realmente mudam o modelo. Estou feliz em construir isso ainda mais à medida que o feedback chega! Os dados são liberados e licenciados permissivamente (exceto o fato de que algumas conclusões de Tulu têm a licença Llama).