SGLang + Miles: Reluarea rutării de lansare (R3) este acum activă! 🎉 Suntem încântați să anunțăm că SGLang și Miles suportă acum Rollout Routing Replay (R3) pentru antrenament stabil de învățare prin întărire pe modele MoE! Antrenarea modelelor MoE cu RL a fost notoriu instabilă, ducând adesea la prăbușirea catastrofală. Problema? Inconsistența rutării între motoarele de inferență și cele de antrenament. R3 rezolvă acest lucru prin înregistrarea deciziilor de rutare ale experților în timpul inferenței și redarea lor în timpul antrenamentului. Impactul este semnificativ: a redus dramatic discrepanța între antrenament și inferență prin reutilizarea deciziilor de rutare a inferenței, prevenind colapsul antrenamentului. R3 are suport complet distribuit pentru antrenament cu DataParallel Attention și toate strategiile de paralelism, modelele suportate includ Qwen3-30B-A3B, deepseek_v2 etc. Încearcă-l și spune-ne rezultatele! 🚀