RL:n äärimmäinen tehottomuus Frontier-malleissa 🧵 Siirtyminen rajamallien kouluttamisesta seuraavan tokenin ennustamisen avulla vahvistusoppimiseen (RL) vaatii 1 000–1 000 000 kertaa enemmän laskentaa tietobittiä kohden, josta malli oppii. 1/11