modelele de cerere erau construite pentru oameni care accesau API-urile de câteva ori pe minut... Max Dar milioane de agenți nu dorm niciodată, nu fac grupuri, nu așteaptă niciodată Ele rulează inferența continuu, pe toate fusurile orare, fără nicio toleranță pentru a rămâne în linie AWS nu poate construi centre de date suficient de rapid pentru cererea umană. Nici măcar nu evaluează ce fac agenții cu acea curbă Timpul pentru actualizarea modelelor este o subestimare