Aqui está um resumo de código em uma linha em MLX do post do blog @thinkymachines sobre não-determinismo na inferência de LLM. Eu diria que a diferença é maior quanto menor a precisão, pois você obtém efeitos maiores da não-associatividade da matemática de ponto flutuante. Curiosamente, isso implica que treinar em baixa precisão (pense em NVFP4) pode tornar a geração muito mais sensível ao tamanho do lote.