Voici un résumé en une ligne du code en MLX du billet de blog @thinkymachines sur le non-déterminisme dans l'inférence des LLM. Je parierais que la différence est plus grande plus la précision est faible, car vous obtenez des effets plus importants de la non-associativité des mathématiques FP. Fait intéressant, cela implique que l'entraînement à faible précision (pensez à NVFP4) pourrait rendre la génération beaucoup plus sensible à la taille du lot.