FlowRL: LLM RL:n palkkionjaon täsmäytys • Siirtyy palkkioiden maksimoinnista → jaon täsmäytyksestä • +10,0 % vs GRPO, +5,1 % vs PPO matematiikassa; vahvat lisäykset koodilla • Minimoi käänteisen KL:n kattamaan kaikki kelvolliset päättelyreitit (välttää tilan romahtamisen)