Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Post intéressant. Les bits/FLOP de l'apprentissage par renforcement (RL) sont de 3 à 6 ordres de grandeur plus bas que ceux du pré-entraînement.
Bien que @tamaybes ait souligné que les bits provenant du RL peuvent cibler les compétences spécifiques que vous souhaitez apprendre. Alors que le pré-entraînement distribue simplement ces bits sur l'apprentissage de relations ASCII aléatoires et d'un million d'autres choses non pertinentes.
De plus, pour toute tâche donnée, il y a beaucoup de décisions dont l'exécution spécifique n'a pas beaucoup d'importance, et quelques-unes que vous voulez vraiment maîtriser. Le RL peut concentrer le signal sur l'apprentissage de la manière de ne pas gâcher les états critiques dans l'épisode, plutôt que d'obtenir chaque token correct. Image utile d'une des anciennes conférences de @svlevine (B est l'état critique) :
Je pense que cela revient toujours à dire que le RL est de loin moins dense en informations que le pré-entraînement. Et je suis d'accord avec Toby que le gain d'intelligence par FLOP de l'entraînement dans un environnement RL sera inférieur à ce que beaucoup supposent.
Je travaille sur un post à ce sujet avec @EgeErdil2, @MatthewJBar et @tamaybes. J'espère que nous pourrons publier la semaine prochaine.


Meilleurs
Classement
Favoris