-أنت تكون - خريج CS عشوائي مع 0 دليل على كيفية عمل LLMs - سئم من حراسة الأشخاص بالكلمات الكبيرة ووحدات معالجة الرسومات الصغيرة - قررت الانتقال إلى وضع الراهب الكامل - بعد 2 سنوات يمكنني شرح آليات الانتباه في الحفلات وتدميرها - ها هي خريطة المعرفة الممنوعة - من أعلى إلى أسفل ، كيف تعمل LLMs * في الواقع * - ابدأ من البداية - الرموز → النصية - الرموز → التضمين - أنت الآن رقم فاصلة عائمة في مساحة 4D - أجواء وفقا لذلك - التضمينات الموضعية: - مطلق: "أنا الموضع 5" - الروتاري (RoPE): "أنا موجة جيبية" - ذريعة: "أنا أقوم بقياس الانتباه عن طريق المسافة مثل الكراه" - الاهتمام هو كل ما تحتاجه - الاهتمام بالذات: "من يسمح لي بالانتباه؟" - multihead: "ماذا لو فعلت ذلك 8 مرات بالتوازي؟" - QKV: استعلام ، مفتاح ، قيمة - يبدو وكأنه عملية احتيال تشفير - في الواقع جوهر الذكاء -المحولات: - خذ مدخلاتك - تحطيمها من خلال طبقات الانتباه...