Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

FlowRL: Phân phối phần thưởng phù hợp cho LLM RL • Chuyển từ tối đa hóa phần thưởng → phù hợp phân phối • +10.0% so với GRPO, +5.1% so với PPO trong toán; tăng trưởng mạnh trong mã • Giảm thiểu KL ngược để bao phủ tất cả các con đường lý luận hợp lệ (tránh sụp đổ chế độ)

Hàng đầu

Thứ hạng

Yêu thích