FlowRL: Pencocokan Distribusi Hadiah untuk LLM RL • Pergeseran dari maksimalisasi hadiah → pencocokan distribusi • +10.0% vs GRPO, +5.1% vs PPO pada matematika; Keuntungan kuat pada kode • Meminimalkan KL terbalik untuk menutupi semua jalur penalaran yang valid (menghindari keruntuhan mode)