好的,需要幫助!我在週末嘗試對 GPT-OSS 進行微調。它運行約 100 步驟後,然後出現 CUDA 記憶體不足的錯誤。 我猜每隔一段時間,所有的標記都會被路由到一個單一的專家。然後訓練崩潰。 有簡單的解決辦法嗎?我從未對 MoE 進行過微調。
😒
45.06K