Цікавий пост. Bits/FLOP від RL на 3-6 OOM нижчі, ніж у попередньому тренуванні. Хоча @tamaybes звернув увагу на те, що біти з RL можуть бути націлені на конкретні навички, які ви хочете вивчити. У той час як попереднє навчання просто розподіляє ці біти по вивченню випадкових відносин ASCII і мільйона інших нерелевантних речей. Крім того, для будь-якого завдання є безліч рішень, конкретне виконання яких не має великого значення, і кілька з них ви дійсно хочете прибити. RL може сконцентрувати сигнал на тому, щоб навчитися не зіпсувати критичні стани в епізоді, а не правильно налаштувати кожен окремий токен. Корисне зображення з однієї зі старих лекцій @svlevine (В – критичний стан): Я думаю, що це все ще свідчить про те, що RL набагато менш насичена інформацією, ніж попередня підготовка. І я згоден з Тобі в тому, що приріст інтелекту на FLOP тренування RL env буде меншим, ніж багато хто припускає. Працюємо над постом про це з @EgeErdil2, @MatthewJBar та @tamaybes. Сподіваюся, ми зможемо опублікувати наступного тижня.