Як backprop працює з RL? Перевага backprop полягає в тому, що він оновлює КОЖЕН окремий параметр пропорційно до того, наскільки сильно він впливає на втрату. Це можливо тільки в тому випадку, якщо ви знаєте, як зміна кожного параметра впливає на функцію втрат. Але, звичайно, з RL це не так: середовище (і винагорода, яку вона виробляє) - це ціла окрема система. У вас немає якоїсь безперервної диференційовної функції, яка повідомляє вам, наскільки хитання кожного параметра впливає на ймовірність падіння зі скелі. Рішення досить розумні! Ось кілька способів придумати диференційований проксі для винагороди: Методи градієнта політики: Ви не можете диференціювати винагороду по відношенню до мережі. Але ви можете диференціювати ймовірності різних дій/токенів, запропонованих мережею. Отже, просто зробіть збиток = (сума від'ємного log) ймовірностей, ЗВАЖЕНИХ на винагороду. Втрати вищі, коли винагорода нижча, тому модель вчиться виводити токени, які призводять до вищої винагороди з більшою ймовірністю. Q-навчання: Знову ж таки, винагорода не є диференційованою по відношенню до мережі. Але знаєте, що таке? Прогноз мережі щодо винагороди. І ви можете оновити його залежно від того, наскільки неправильним був цей прогноз. Тепер, коли ви можете передбачити, які дії призведуть до якої винагороди, ваша політика може полягати лише в тому, щоб робити дії з найвищою очікуваною винагородою.