SGLang + Miles : Le Rollout Routing Replay (R3) est maintenant en ligne ! 🎉 Nous sommes ravis d'annoncer que SGLang et Miles prennent désormais en charge le Rollout Routing Replay (R3) pour un entraînement stable en apprentissage par renforcement sur des modèles MoE ! L'entraînement des modèles MoE avec RL a été notoirement instable, entraînant souvent un effondrement catastrophique. Le problème ? L'incohérence de routage entre les moteurs d'inférence et d'entraînement. R3 résout ce problème en enregistrant les décisions de routage des experts pendant l'inférence et en les rejouant pendant l'entraînement. L'impact est significatif : réduction drastique de la disparité entre l'entraînement et l'inférence en réutilisant les décisions de routage d'inférence, empêchant l'effondrement de l'entraînement. R3 prend en charge l'entraînement distribué complet avec DataParallel Attention et toutes les stratégies de parallélisme, les modèles pris en charge incluent Qwen3-30B-A3B, deepseek_v2, etc. Essayez-le et faites-nous savoir vos résultats ! 🚀