Deus não faria o RMSNORM exigir uma redução completa ao longo d_model ... ele não faria isso conosco...