Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Replay de roteamento de lançamento (R3) já está disponível! 🎉
Estamos animados em anunciar que SGLang e Miles agora suportam o Rollout Routing Replay (R3) para treinamento estável de aprendizado por reforço em modelos MoE!
O treinamento de modelos MoE com RL tem sido notoriamente instável, frequentemente levando a colapsos catastróficos. O problema? Inconsistência de roteamento entre inferência e motores de treinamento. O R3 corrige isso registrando decisões de roteamento de especialistas durante a inferência e reproduzindo-as durante o treinamento.
O impacto é significativo: reduz drasticamente a discrepância entre treinamento e inferência ao reutilizar decisões de roteamento de inferência, prevenindo o colapso do treinamento. O R3 possui suporte total distribuído para treinamento com DataParallel Attention e todas as estratégias de paralelismo; modelos suportados incluem Qwen3-30B-A3B, deepseek_v2, etc.
Experimente e nos conte seus resultados! 🚀

Melhores
Classificação
Favoritos
