Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SGLang + Miles: Rollout Routing Replay (R3) är nu live! 🎉
Vi är glada att kunna meddela att SGLang och Miles nu stödjer Rollout Routing Replay (R3) för stabil förstärkningsinlärningsträning på MoE-modeller!
Att träna MoE-modeller med RL har varit ökänd för sin instabilitet, vilket ofta lett till katastrofala kollapsar. Problemet? Routinginkonsistens mellan inferens- och träningsmotorer. R3 åtgärdar detta genom att spela in expertroutningsbeslut under inferensen och spela upp dem under träningen.
Effekten är betydande: dramatiskt minskad tränings- och inferensskillnad genom att återanvända inferensroutingbeslut, vilket förhindrar träningskollaps. R3 har fullt distribuerat träningsstöd med DataParallel Attention och alla parallellismstrategier, stödda modeller inkluderar Qwen3-30B-A3B, deepseek_v2, etc.
Testa det och berätta gärna dina resultat! 🚀

Topp
Rankning
Favoriter
