1/ Avem o criză de scalare hardware. Nucleele tensoriale GPU își dublează viteza, dar lățimea de bandă a memoriei și unitățile matematice exponențiale stagnează. Kernel-urile tale de atenție stau pe loc în timp ce aștepți să se termine matematica de bază. 🧵