Berikut adalah ringkasan kode satu baris di MLX dari posting blog @thinkymachines tentang non-determinisme dalam inferensi LLM.
Saya kira perbedaannya lebih besar semakin rendah presisinya, karena Anda mendapatkan pengaruh yang lebih besar dari non-asosiasi matematika FP.
Menariknya, itu menyiratkan bahwa pelatihan dengan presisi rendah (pikirkan NVFP4) mungkin membuat generasi jauh lebih sensitif terhadap ukuran batch.
Dalam 2 minggu terakhir, 7 arsitektur model baru ditambahkan ke MLX LM.
Dari 7 itu, 6 adalah MoE.
Dari 6 MoE tersebut, 3 merupakan model hybrid SSM / perhatian.
Arsitektur berubah perlahan lalu tiba-tiba.