Interessanter Beitrag. Bits/FLOP von RL sind 3-6 OOMs niedriger als beim Pretraining. Obwohl @tamaybes den Punkt gemacht hat, dass die Bits von RL die spezifischen Fähigkeiten anvisieren können, die man lernen möchte. Während das Pretraining diese Bits einfach über das Lernen zufälliger ASCII-Beziehungen und einer Million anderer irrelevanter Dinge verteilt. Darüber hinaus gibt es für jede gegebene Aufgabe viele Entscheidungen, deren spezifische Ausführung nicht viel bedeutet, und ein paar, die man wirklich gut hinbekommen möchte. RL kann das Signal darauf konzentrieren, zu lernen, wie man die kritischen Zustände im Episode nicht vermasselt, anstatt jedes einzelne Token korrekt zu bekommen. Nützliches Bild aus einer der alten Vorlesungen von @svlevine (B ist der kritische Zustand): Ich denke, das führt immer noch dazu, dass RL weit weniger informationsdicht ist als das Pretraining. Und ich stimme Toby zu, dass der Intelligenzgewinn pro FLOP des RL-Umgebungstrainings geringer sein wird, als viele annehmen. Ich arbeite an einem Beitrag darüber mit @EgeErdil2, @MatthewJBar und @tamaybes. Hoffentlich können wir nächste Woche veröffentlichen.