SGLang + Miles: Replay de roteamento de lançamento (R3) já está disponível! 🎉 Estamos animados em anunciar que SGLang e Miles agora suportam o Rollout Routing Replay (R3) para treinamento estável de aprendizado por reforço em modelos MoE! O treinamento de modelos MoE com RL tem sido notoriamente instável, frequentemente levando a colapsos catastróficos. O problema? Inconsistência de roteamento entre inferência e motores de treinamento. O R3 corrige isso registrando decisões de roteamento de especialistas durante a inferência e reproduzindo-as durante o treinamento. O impacto é significativo: reduz drasticamente a discrepância entre treinamento e inferência ao reutilizar decisões de roteamento de inferência, prevenindo o colapso do treinamento. O R3 possui suporte total distribuído para treinamento com DataParallel Attention e todas as estratégias de paralelismo; modelos suportados incluem Qwen3-30B-A3B, deepseek_v2, etc. Experimente e nos conte seus resultados! 🚀