Intressant inlägg. Bits/FLOP från RL är 3-6 OOM:er lägre än förträning. Även om @tamaybes påpekade att bitarna från RL kan rikta in sig på de specifika färdigheter du vill lära dig. Medan förträning bara fördelar dessa bitar över inlärning av slumpmässiga ASCII-relationer och en miljon andra irrelevanta saker. Dessutom, för varje given uppgift, finns det massor av beslut vars specifika utförande inte spelar så stor roll, och ett par som du verkligen vill spika. RL kan koncentrera signalen på att lära sig hur man inte förstör de kritiska tillstånden i avsnittet, i motsats till att få varje enskild token korrekt. Användbar bild från en av @svlevine gamla föreläsningar (B är det kritiska tillståndet): Jag tror att detta fortfarande leder till att RL är mycket, mycket mindre informationstät än förträning. Och jag håller med Toby om att intelligensvinsten per FLOP av RL-miljöträning kommer att vara mindre än vad många antar. Jobbar på ett inlägg om detta med @EgeErdil2, @MatthewJBar och @tamaybes. Förhoppningsvis kan vi publicera nästa vecka.