Bůh by nechtěl, aby RMSnorm vyžadoval úplnou redukci v průběhu d_model... To by nám neudělal...