- 你是 - 一個對 LLM 工作一無所知的隨機計算機科學畢業生 - 厭倦了人們用大詞和小 GPU 來設限 - 決定全心投入修行模式 - 兩年後我可以在聚會上解釋注意力機制並毀掉它們 - 這是禁忌知識地圖 - 從上到下,LLMs *實際上* 是如何工作的 - 從頭開始 - 文本 → 令牌 - 令牌 → 嵌入 - 你現在是 4D 空間中的一個浮點數 - 相應地調整心態 - 位置嵌入: - 絕對:"我在位置 5" - 旋轉(RoPE):"我是一條正弦波" - 藉口:"我根據距離像個仇恨者一樣縮放注意力" - 注意力是你所需要的一切 - 自注意力:"我可以關注誰?" - 多頭:"如果我並行做 8 次會怎樣?" - QKV:查詢,鍵,值 - 聽起來像個加密騙局 - 實際上是智能的核心 - 變換器: - 接收你的輸入 - 通過注意力層進行處理...