Каждая основная модель, которую вы когда-либо использовали, имела одну и ту же ошибку. Она только что была исправлена. С 2015 года каждая глубокая сеть строилась одинаково: каждый слой выполняет некоторые вычисления, добавляет свой результат к текущей сумме и передает его дальше. Просто. Но есть проблема: к слою 100 сигнал от любого отдельного слоя поглощается суммой всего остального. Каждый новый слой имеет все меньшее значение. Никто не исправлял это, потому что это работало достаточно хорошо. Moonshot AI только что это изменил. Их новый метод, Attention Residuals, позволяет каждому слою оглядываться на все предыдущие слои и выбирать, какие из них действительно важны прямо сейчас. Вместо слепой текущей суммы вы получаете выборочное извлечение. Аналогия: представьте, что вы пишете эссе, где каждый черновик автоматически объединяется в один документ. К черновику 50 ваши последние правки становятся невидимыми. AttnRes позволяет вам сохранять каждый черновик отдельно и извлекать из любого из них, который вам нужен. Что это исправляет: 1. Более глубокие слои больше не затапливаются 2. Обучение становится более стабильным по всей сети 3. Модель использует свою глубину более эффективно Чтобы сделать это практичным в масштабе, они группируют слои в блоки и обращаются к сводкам блоков вместо каждого отдельного слоя. Нагрузка при выводе: менее 2%. Результат: 25% меньше вычислений для достижения той же производительности. Протестировано на модели с 48B параметрами. Сохраняется для разных размеров....