Iată un rezumat al codului de o linie în MLX al postării de blog @thinkymachines despre non-determinism în inferența LLM. Cred că diferența este mai mare cu cât precizia este mai mică, deoarece obțineți efecte mai mari de la non-asociativitatea matematicii FP. Interesant este că acest lucru implică faptul că antrenamentul la precizie scăzută (gândiți-vă la NVFP4) ar putea face generarea mult mai sensibilă la dimensiunea lotului.