- você é - um graduado de CS aleatório com 0 pista de como os LLMs funcionam - canse de pessoas controlando com palavras grandes e GPUs minúsculas - Decida ir para o modo monge completo - 2 anos depois, posso explicar os mecanismos de atenção nas festas e arruiná-los - Aqui está o Mapa do Conhecimento Proibido - de cima para baixo, como os LLMs *realmente* funcionam - começar do início - Tokens de → de texto - tokens → incorporações - você agora é um número de ponto flutuante no espaço 4D - vibe de acordo - Incorporações posicionais: - Absoluto: "Eu sou a posição 5" - rotativo (RoPE): "eu sou uma onda senoidal" - Álibi: "Eu escalo a atenção pela distância como um odiador" - atenção é tudo que você precisa - Auto-atenção: "Em quem posso prestar atenção?" - Multihead: "E se eu fizer isso 8 vezes em paralelo?" - QKV: consulta, chave, valor - soa como um golpe de criptografia - na verdade, o núcleo da inteligência -Transformadores: - Receba suas entradas - esmagá-los através de camadas de atenção...