FlowRL: Phân phối phần thưởng phù hợp cho LLM RL • Chuyển từ tối đa hóa phần thưởng → phù hợp phân phối • +10.0% so với GRPO, +5.1% so với PPO trong toán; tăng trưởng mạnh trong mã • Giảm thiểu KL ngược để bao phủ tất cả các con đường lý luận hợp lệ (tránh sụp đổ chế độ)