Den ekstreme ineffektiviteten til RL for Frontier-modeller 🧵 Overgangen fra å trene grensemodeller ved neste token-prediksjon til forsterkende læring (RL) krever 1 000 til 1 000 000-vis av ganger så mye databehandling per bit informasjon modellen får lære av. 1/11