ok, ho bisogno di aiuto! Ho provato a fare il finetuning di GPT-OSS durante il fine settimana. Funziona per circa 100 passi, poi genera un errore di memoria CUDA esaurita. La mia ipotesi è che di tanto in tanto, tutti i token vengano indirizzati a un singolo esperto. Poi l'addestramento si interrompe. C'è una soluzione semplice? Non ho mai fatto finetuning di un MoE prima.
😒
17,19K