Le secret derrière la performance des LLM au niveau des centres de données ? Le traitement par lots continu 🚀 Cela permet à un serveur de jongler avec de nombreuses requêtes avec presque aucun surcoût. Et oui, le traitement par lots continu arrive bientôt sur @PicoGPT et MLX-Swift 👀