Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Интересный пост. Биты/FLOP от RL на 3-6 порядков ниже, чем до обучения.
Хотя @tamaybes отметил, что биты от RL могут нацеливаться на конкретные навыки, которые вы хотите изучить. В то время как предобучение просто распределяет эти биты по изучению случайных ASCII-отношений и миллиона других несущественных вещей.
Более того, для любой данной задачи есть много решений, выполнение которых не имеет большого значения, и несколько, которые вы действительно хотите выполнить идеально. RL может сосредоточить сигнал на том, чтобы не испортить критические состояния в эпизоде, в отличие от того, чтобы правильно получить каждый отдельный токен. Полезное изображение из одной из старых лекций @svlevine (B - критическое состояние):
Я думаю, что это все равно приводит к тому, что RL гораздо менее информационно плотен, чем предобучение. И я согласен с Тоби, что прирост интеллекта на FLOP обучения RL будет меньше, чем многие предполагают.
Работаю над постом об этом с @EgeErdil2, @MatthewJBar и @tamaybes. Надеюсь, мы сможем опубликовать на следующей неделе.


Топ
Рейтинг
Избранное