Här är en sammanfattning av en radkod i MLX av det @thinkymachines blogginlägget om icke-determinism i LLM-inferens.
Jag skulle gissa att skillnaden är större ju lägre precision, eftersom du får större effekter från icke-associativitet av FP matematik.
Intressant nog innebär det att träning med låg precision (tänk NVFP4) kan göra genereringen mycket mer känslig för batchstorlek.
Under de senaste 2 veckorna har 7 nya modellarkitekturer lagts till i MLX LM.
Av dessa 7 är 6 MoE.
Av dessa 6 MoE är 3 hybrid SSM/uppmärksamhetsmodeller.
Arkitekturer förändras långsamt och sedan plötsligt.