Интересный пост. Биты/FLOP от RL на 3-6 порядков ниже, чем до обучения. Хотя @tamaybes отметил, что биты от RL могут нацеливаться на конкретные навыки, которые вы хотите изучить. В то время как предобучение просто распределяет эти биты по изучению случайных ASCII-отношений и миллиона других несущественных вещей. Более того, для любой данной задачи есть много решений, выполнение которых не имеет большого значения, и несколько, которые вы действительно хотите выполнить идеально. RL может сосредоточить сигнал на том, чтобы не испортить критические состояния в эпизоде, в отличие от того, чтобы правильно получить каждый отдельный токен. Полезное изображение из одной из старых лекций @svlevine (B - критическое состояние): Я думаю, что это все равно приводит к тому, что RL гораздо менее информационно плотен, чем предобучение. И я согласен с Тоби, что прирост интеллекта на FLOP обучения RL будет меньше, чем многие предполагают. Работаю над постом об этом с @EgeErdil2, @MatthewJBar и @tamaybes. Надеюсь, мы сможем опубликовать на следующей неделе.