FlowRL: Belohnungsverteilungsmatching für LLM RL • Verschiebung von Belohnungsmaximierung → Verteilungsmatching • +10,0 % gegenüber GRPO, +5,1 % gegenüber PPO in Mathematik; starke Gewinne bei Code • Minimiert die umgekehrte KL, um alle gültigen Denkpfade abzudecken (vermeidet Modus-Kollaps)