Oke, butuh bantuan! mencoba menyempurnakan GPT-OSS selama akhir pekan. ini bekerja selama ~100 langkah, lalu melemparkan kesalahan CUDA kehabisan memori Dugaan saya adalah bahwa seringkali, semua token dialihkan ke satu ahli. Kemudian pelatihan crash. Apakah ada perbaikan yang mudah? belum pernah menyempurnakan MoE sebelumnya
😒
17,18K