Publicación interesante. Los bits/FLOP de RL son de 3 a 6 órdenes de magnitud más bajos que el preentrenamiento. Aunque @tamaybes hizo el punto de que los bits de RL pueden dirigirse a las habilidades específicas que deseas aprender. Mientras que el preentrenamiento simplemente distribuye esos bits sobre el aprendizaje de relaciones ASCII aleatorias y un millón de otras cosas irrelevantes. Además, para cualquier tarea dada, hay muchas decisiones cuya ejecución específica no importa mucho, y un par que realmente quieres clavar. RL puede concentrar la señal hacia aprender a no estropear los estados críticos en el episodio, en lugar de obtener cada token correcto. Imagen útil de una de las viejas conferencias de @svlevine (B es el estado crítico): Creo que esto sigue resultando en que RL es mucho menos denso en información que el preentrenamiento. Y estoy de acuerdo con Toby en que la ganancia de inteligencia por FLOP del entrenamiento en entornos de RL será menor de lo que muchos asumen. Estoy trabajando en una publicación sobre esto con @EgeErdil2, @MatthewJBar y @tamaybes. Esperemos que podamos publicar la próxima semana.