Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Post interessante. Bits/FLOP de RL são 3-6 OOMs mais baixos do que o pré-treinamento.
Embora @tamaybes tenha apontado que os bits de RL podem direcionar as habilidades específicas que você deseja aprender. Enquanto o pré-treinamento apenas distribui esses bits sobre o aprendizado de relações ASCII aleatórias e um milhão de outras coisas irrelevantes.
Além disso, para qualquer tarefa dada, há muitas decisões cuja execução específica não importa muito, e algumas que você realmente quer acertar. RL pode concentrar o sinal para aprender a não estragar os estados críticos no episódio, em vez de acertar cada único token. Imagem útil de uma das antigas palestras de @svlevine (B é o estado crítico):
Acho que isso ainda resulta em RL sendo muito menos denso em informações do que o pré-treinamento. E concordo com Toby que o ganho de inteligência por FLOP do treinamento de ambiente RL será menor do que muitos assumem.
Trabalhando em um post sobre isso com @EgeErdil2, @MatthewJBar e @tamaybes. Espero que possamos publicar na próxima semana.


Top
Classificação
Favoritos