FlowRL: Coincidencia de distribución de recompensas para LLM RL • Cambios de maximización de recompensas → emparejamiento de distribución • +10.0% vs GRPO, +5.1% vs PPO en matemáticas; Fuertes ganancias en el código • Minimiza el KL inverso para cubrir todas las rutas de razonamiento válidas (evita el colapso del modo)