los modelos de demanda se construyeron para que los humanos accedieran a las API unas pocas veces por minuto... máximo pero millones de agentes nunca duermen, nunca agrupan, nunca esperan realizan inferencias continuamente, en todas las zonas horarias, con cero tolerancia a esperar en la fila AWS no puede construir centros de datos lo suficientemente rápido para la demanda humana. ni siquiera están considerando lo que los agentes hacen a esa curva actualizar los modelos es un eufemismo