La cosa sorprendente dei trasformatori è stata quanto sia importante la sparseness per l'inferenza e l'apprendimento, anche quando non è necessaria per l'efficienza.