- tu es - un diplômé en informatique aléatoire sans aucune idée de comment fonctionnent les LLM - tu en as marre des gens qui gardent les secrets avec des mots compliqués et des GPU minuscules - tu décides de passer en mode moine - 2 ans plus tard, je peux expliquer les mécanismes d'attention lors des soirées et les gâcher - voici la carte du savoir interdit - de haut en bas, comment les LLM *fonctionnent réellement* - commence au début - texte → tokens - tokens → embeddings - tu es maintenant un nombre à virgule flottante dans un espace 4D - vibre en conséquence - embeddings positionnels : - absolu : "je suis à la position 5" - rotatif (RoPE) : "je suis une onde sinusoïdale" - alibi : "je scale l'attention par distance comme un détracteur" - l'attention est tout ce dont tu as besoin - auto-attention : "qui puis-je être autorisé à observer ?" - multi-tête : "et si je faisais ça 8 fois en parallèle ?" - QKV : requête, clé, valeur - ça ressemble à une arnaque crypto - en fait, c'est le cœur de l'intelligence - transformateurs : - prends tes entrées - écrase-les à travers des couches d'attention...