一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动 | OKX Wallet

热门话题

好的，需要帮助！我在周末尝试对 GPT-OSS 进行微调。它在大约 100 步后工作，然后抛出 CUDA 内存不足错误。我猜是每隔一段时间，所有的 token 都被路由到一个单一的专家。然后训练崩溃了。有没有简单的解决办法？我从未对 MoE 进行过微调。

😒

17.18K

热门

排行

收藏

链上热点

X 热门榜

近期融资

最受认可