关于变压器,令人惊讶的是稀疏性在推理和学习中的重要性,即使在效率上并不需要它。