Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Что мне спросить у @RichardSSutton?
Отец обучения с подкреплением, лауреат премии Тьюринга этого года; автор *Горького урока* и более недавно, *Эры опыта*?

Deedy19 апр. 2025 г.
Rich Sutton just published his most important essay on AI since The Bitter Lesson: "Welcome to the Era of Experience"
Sutton and his advisee Silver argue that the “era of human data,” dominated by supervised pre‑training and RL‑from‑human‑feedback, has hit diminishing returns; the future will belong to agents that
— act continuously in real or simulated worlds,
— generate and label their own training data through interaction
— optimise rewards grounded in the environment rather than in human preference alone, and
— refine their world‑models and plans over lifelong streams of experience.

16
Как работает обратное распространение с RL?
Достоинство обратного распространения заключается в том, что оно обновляет КАЖДЫЙ отдельный параметр пропорционально тому, насколько его изменение влияет на потерю. Это возможно только в том случае, если вы знаете, как изменение каждого параметра влияет на функцию потерь.
Но, конечно, с RL это не так: окружающая среда (и вознаграждение, которое она производит) — это совершенно отдельная система. У вас нет непрерывной дифференцируемой функции, которая бы говорила вам, насколько изменение каждого параметра влияет на вероятность упасть с обрыва.
Решения довольно умные! Вот несколько способов придумать дифференцируемый прокси для вознаграждения:
Методы градиента политики: Вы не можете дифференцировать вознаграждение по отношению к сети. Но вы можете дифференцировать вероятности различных действий/токенов, предлагаемых сетью. Поэтому просто сделайте потерю = (сумма отрицательных логарифмов) вероятностей, ВЕСОВЫХ по вознаграждению. Потеря выше, когда вознаграждение ниже, поэтому модель учится выдавать токены, которые приводят к более высокому вознаграждению с более высокой вероятностью.
Q-обучение: Снова, вознаграждение не дифференцируемо по отношению к сети. Но вы знаете, что можно? Прогноз сети о вознаграждении. И вы можете обновить его на основе того, насколько ошибочным был этот прогноз. Теперь, когда вы можете предсказать, какие действия приведут к какому вознаграждению, ваша политика может просто заключаться в том, чтобы предпринимать действия с наивысшим ожидаемым вознаграждением.

349
Интересный пост. Биты/FLOP от RL на 3-6 порядков ниже, чем до обучения.
Хотя @tamaybes отметил, что биты от RL могут нацеливаться на конкретные навыки, которые вы хотите изучить. В то время как предобучение просто распределяет эти биты по изучению случайных ASCII-отношений и миллиона других несущественных вещей.
Более того, для любой данной задачи есть много решений, выполнение которых не имеет большого значения, и несколько, которые вы действительно хотите выполнить идеально. RL может сосредоточить сигнал на том, чтобы не испортить критические состояния в эпизоде, в отличие от того, чтобы правильно получить каждый отдельный токен. Полезное изображение из одной из старых лекций @svlevine (B - критическое состояние):
Я думаю, что это все равно приводит к тому, что RL гораздо менее информационно плотен, чем предобучение. И я согласен с Тоби, что прирост интеллекта на FLOP обучения RL будет меньше, чем многие предполагают.
Работаю над постом об этом с @EgeErdil2, @MatthewJBar и @tamaybes. Надеюсь, мы сможем опубликовать на следующей неделе.



Toby Ord20 сент., 00:39
Экстремальная неэффективность RL для моделей Frontier
🧵
Переход от обучения моделей Frontier с помощью предсказания следующего токена к обучению с подкреплением (RL) требует от 1,000 до 1,000,000 раз больше вычислительных ресурсов на каждый бит информации, который модель получает для обучения.
1/11
Топ
Рейтинг
Избранное