FlowRL: Узгодження розподілу винагород для LLM RL • Перехід від максимізації винагороди → узгодження розподілу • +10,0% проти GRPO, +5,1% до PPO з математики; Значний виграш від коду • Мінімізує зворотний KL, щоб охопити всі допустимі шляхи міркувань (дозволяє уникнути колапсу режиму)