- você é - um graduado em CS aleatório sem a menor ideia de como funcionam os LLMs - fica cansado de pessoas que fazem gatekeeping com palavras difíceis e GPUs pequenas - decide entrar em modo monge total - 2 anos depois, consigo explicar mecanismos de atenção em festas e estragar tudo - aqui está o mapa do conhecimento proibido - de cima para baixo, como os LLMs *realmente* funcionam - comece pelo começo - texto → tokens - tokens → embeddings - você agora é um número de ponto flutuante em um espaço 4D - sinta-se à vontade - embeddings posicionais: - absoluto: “eu sou a posição 5” - rotativo (RoPE): “eu sou uma onda senoidal” - álibi: “eu escalo a atenção pela distância como um hater” - atenção é tudo o que você precisa - autoatenção: “a quem eu posso prestar atenção?” - multihead: “e se eu fizer isso 8 vezes em paralelo?” - QKV: consulta, chave, valor - soa como um golpe de criptomoeda - na verdade, é o núcleo da inteligência - transformers: - pegam suas entradas - as esmagam através de camadas de atenção...