SGLang + Miles: ¡La repetición de rutas de despliegue (R3) ya está activa! 🎉 ¡Nos complace anunciar que SGLang y Miles ahora soportan Rollout Routing Replay (R3) para un entrenamiento estable de aprendizaje por refuerzo en modelos MoE. El entrenamiento de modelos MoE con RL ha sido notoriamente inestable, lo que a menudo ha llevado a un colapso catastrófico. ¿El problema? Inconsistencia en el enrutamiento entre los motores de inferencia y de entrenamiento. R3 soluciona esto registrando decisiones de enrutamiento expertas durante la inferencia y reproduciéndolas durante el entrenamiento. El impacto es significativo: redujeron drásticamente la discrepancia entre entrenamiento e inferencia al reutilizar decisiones de enrutamiento de inferencia, evitando el colapso del entrenamiento. R3 tiene soporte completo de entrenamiento distribuido con DataParallel Attention y todas las estrategias de paralelismo; los modelos soportados incluyen Qwen3-30B-A3B, deepseek_v2, etc. ¡Pruébalo y cuéntanos tus resultados! 🚀