Postagem interessante. Bits/FLOP de RL são 3-6 OOMs menores que o pré-treinamento. Embora @tamaybes tenha afirmado que os bits de RL podem ter como alvo as habilidades específicas que você deseja aprender. Considerando que o pré-treinamento apenas distribui esses bits sobre o aprendizado de relacionamentos ASCII aleatórios e um milhão de outras coisas irrelevantes. Além disso, para qualquer tarefa, há muitas decisões cuja execução específica não importa muito, e algumas que você realmente deseja acertar. RL pode concentrar o sinal para aprender como não bagunçar os estados críticos do episódio, em vez de acertar cada token. Imagem útil de uma das palestras antigas de @svlevine (B é o estado crítico): Acho que isso ainda mostra que o RL é muito, muito menos denso em informações do que o pré-treinamento. E concordo com Toby que o ganho de inteligência por FLOP de treinamento de ambiente RL será menor do que muitos supõem. Trabalhando em um post sobre isso com @EgeErdil2, @MatthewJBar e @tamaybes. Espero que possamos publicar na próxima semana.