Post interessante. Bits/FLOP de RL são 3-6 OOMs mais baixos do que o pré-treinamento. Embora @tamaybes tenha apontado que os bits de RL podem direcionar as habilidades específicas que você deseja aprender. Enquanto o pré-treinamento apenas distribui esses bits sobre o aprendizado de relações ASCII aleatórias e um milhão de outras coisas irrelevantes. Além disso, para qualquer tarefa dada, há muitas decisões cuja execução específica não importa muito, e algumas que você realmente quer acertar. RL pode concentrar o sinal para aprender a não estragar os estados críticos no episódio, em vez de acertar cada único token. Imagem útil de uma das antigas palestras de @svlevine (B é o estado crítico): Acho que isso ainda resulta em RL sendo muito menos denso em informações do que o pré-treinamento. E concordo com Toby que o ganho de inteligência por FLOP do treinamento de ambiente RL será menor do que muitos assumem. Trabalhando em um post sobre isso com @EgeErdil2, @MatthewJBar e @tamaybes. Espero que possamos publicar na próxima semana.