FlowRL: Párování distribuce odměn pro LLM RL • Posun od maximalizace odměn → párování distribuce • +10,0 % vs GRPO, +5,1 % vs PPO v matematice; Výrazné zisky z kódu • Minimalizuje reverzní KL tak, aby pokryl všechny platné cesty uvažování (zabrání kolapsu režimu)