FlowRL:用于LLM RL的奖励分配匹配 • 从奖励最大化转向分布匹配 • 在数学上比GRPO高出10.0%,比PPO高出5.1%;在代码上有强劲的收益 • 最小化反向KL以覆盖所有有效的推理路径(避免模式崩溃)