FlowRL: Distribuzione delle Ricompense per il RL LLM • Passa dalla massimizzazione della ricompensa → allineamento della distribuzione • +10,0% rispetto a GRPO, +5,1% rispetto a PPO in matematica; forti guadagni nel codice • Minimizza il KL inverso per coprire tutti i percorsi di ragionamento validi (evita il collasso della modalità)