SGLang + Miles: Rollout Routing Replay (R3) är nu live! 🎉 Vi är glada att kunna meddela att SGLang och Miles nu stödjer Rollout Routing Replay (R3) för stabil förstärkningsinlärningsträning på MoE-modeller! Att träna MoE-modeller med RL har varit ökänd för sin instabilitet, vilket ofta lett till katastrofala kollapsar. Problemet? Routinginkonsistens mellan inferens- och träningsmotorer. R3 åtgärdar detta genom att spela in expertroutningsbeslut under inferensen och spela upp dem under träningen. Effekten är betydande: dramatiskt minskad tränings- och inferensskillnad genom att återanvända inferensroutingbeslut, vilket förhindrar träningskollaps. R3 har fullt distribuerat träningsstöd med DataParallel Attention och alla parallellismstrategier, stödda modeller inkluderar Qwen3-30B-A3B, deepseek_v2, etc. Testa det och berätta gärna dina resultat! 🚀