FlowRL: Correspondência de Distribuição de Recompensas para LLM RL • Transições de maximização de recompensa → correspondência de distribuição • +10,0% vs GRPO, +5,1% vs PPO em matemática; fortes ganhos em código • Minimiza KL reverso para cobrir todos os caminhos de raciocínio válidos (evita colapso de modo)