FlowRL: Beloningsdistributie matching voor LLM RL • Verschuiving van beloningsmaximalisatie → distributiematching • +10,0% vs GRPO, +5,1% vs PPO op wiskunde; sterke winsten op code • Minimaliseert reverse KL om alle geldige redeneerpaden te dekken (vermijdt mode collapse)