Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mielenkiintoinen postaus. Bitit/FLOP RL:stä ovat 3-6 OOM:ia pienemmät kuin ennen harjoittelua.
Vaikka @tamaybes huomautti, että RL:n bitit voivat kohdistua tiettyihin taitoihin, joita haluat oppia. Kun taas esikoulutus vain jakaa nämä bitit satunnaisten ASCII-suhteiden ja miljoonan muun epäolennaisen asian oppimiseen.
Lisäksi jokaisessa tehtävässä on paljon päätöksiä, joiden erityisellä toteutuksella ei ole suurta merkitystä, ja pari, jotka todella haluat naulata. RL voi keskittää signaalin oppimaan, kuinka olla sotkematta jakson kriittisiä tiloja, sen sijaan, että jokainen merkki olisi oikein. Hyödyllinen kuva eräältä @svlevine vanhalta luennolta (B on kriittinen tila):
Luulen, että tämä viittaa edelleen siihen, että RL on paljon vähemmän tietotiheää kuin esikoulutus. Ja olen samaa mieltä Tobyn kanssa siitä, että älykkyyden lisäys RL env -koulutuksen FLOPia kohden on pienempi kuin monet olettavat.
Työstän tätä käsittelevää postausta @EgeErdil2, @MatthewJBar ja @tamaybes. Toivottavasti voimme julkaista ensi viikolla.


Johtavat
Rankkaus
Suosikit