好的,需要帮助!我在周末尝试对 GPT-OSS 进行微调。它在大约 100 步后工作,然后抛出 CUDA 内存不足错误。 我猜是每隔一段时间,所有的 token 都被路由到一个单一的专家。然后训练崩溃了。 有没有简单的解决办法?我从未对 MoE 进行过微调。
😒
17.18K