Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Interesante publicación. Los bits / FLOP de RL son de 3 a 6 OOM más bajos que el preentrenamiento.
Aunque @tamaybes señaló que los fragmentos de RL pueden apuntar a las habilidades específicas que desea aprender. Mientras que el entrenamiento previo solo distribuye esos bits sobre el aprendizaje de relaciones ASCII aleatorias y un millón de otras cosas irrelevantes.
Además, para cualquier tarea dada, hay muchas decisiones cuya ejecución específica no importa mucho, y un par que realmente quieres clavar. RL puede concentrar la señal para aprender a no estropear los estados críticos en el episodio, en lugar de obtener cada token correcto. Imagen útil de una de las viejas conferencias de @svlevine (B es el estado crítico):
Creo que esto todavía se traduce en que RL es mucho menos denso en información que el entrenamiento previo. Y estoy de acuerdo con Toby en que la ganancia de inteligencia por FLOP de entrenamiento de RL env será menor de lo que muchos suponen.
Trabajando en una publicación sobre esto con @EgeErdil2, @MatthewJBar y @tamaybes. Ojalá podamos publicar la próxima semana.


Populares
Ranking
Favoritas