Dobře, potřebuji pomoc! O víkendu jsem se pokusil doladit GPT-OSS. funguje pro ~100 kroků, pak vyvolá chybu CUDA z nedostatku paměti Můj odhad je, že jednou za čas jsou všechny tokeny směrovány k jedinému expertovi. Pak trénink spadne. Existuje snadné řešení? nikdy předtím jsem žádné MoE nevyladil
😒
9,29K