Добре, потрібна допомога! спробував тонке налаштування GPT-OSS на вихідних. він працює на ~100 кроків, потім видає помилку CUDA без пам'яті Я припускаю, що час від часу всі токени перенаправляються одному експерту. Потім тренування завершує роботу. Чи є просте рішення? ніколи раніше не допрацьовував МОН
😒
23,7K