Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Postagem interessante. Bits/FLOP de RL são 3-6 OOMs menores que o pré-treinamento.
Embora @tamaybes tenha afirmado que os bits de RL podem ter como alvo as habilidades específicas que você deseja aprender. Considerando que o pré-treinamento apenas distribui esses bits sobre o aprendizado de relacionamentos ASCII aleatórios e um milhão de outras coisas irrelevantes.
Além disso, para qualquer tarefa, há muitas decisões cuja execução específica não importa muito, e algumas que você realmente deseja acertar. RL pode concentrar o sinal para aprender como não bagunçar os estados críticos do episódio, em vez de acertar cada token. Imagem útil de uma das palestras antigas de @svlevine (B é o estado crítico):
Acho que isso ainda mostra que o RL é muito, muito menos denso em informações do que o pré-treinamento. E concordo com Toby que o ganho de inteligência por FLOP de treinamento de ambiente RL será menor do que muitos supõem.
Trabalhando em um post sobre isso com @EgeErdil2, @MatthewJBar e @tamaybes. Espero que possamos publicar na próxima semana.


Melhores
Classificação
Favoritos