Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Цікавий пост. Bits/FLOP від RL на 3-6 OOM нижчі, ніж у попередньому тренуванні.
Хоча @tamaybes звернув увагу на те, що біти з RL можуть бути націлені на конкретні навички, які ви хочете вивчити. У той час як попереднє навчання просто розподіляє ці біти по вивченню випадкових відносин ASCII і мільйона інших нерелевантних речей.
Крім того, для будь-якого завдання є безліч рішень, конкретне виконання яких не має великого значення, і кілька з них ви дійсно хочете прибити. RL може сконцентрувати сигнал на тому, щоб навчитися не зіпсувати критичні стани в епізоді, а не правильно налаштувати кожен окремий токен. Корисне зображення з однієї зі старих лекцій @svlevine (В – критичний стан):
Я думаю, що це все ще свідчить про те, що RL набагато менш насичена інформацією, ніж попередня підготовка. І я згоден з Тобі в тому, що приріст інтелекту на FLOP тренування RL env буде меншим, ніж багато хто припускає.
Працюємо над постом про це з @EgeErdil2, @MatthewJBar та @tamaybes. Сподіваюся, ми зможемо опублікувати наступного тижня.


Найкращі
Рейтинг
Вибране