Extrémní neefektivita RL pro modely Frontier 🧵 Přechod od trénování hraničních modelů pomocí predikce dalšího tokenu k zpětnovazebnímu učení (RL) vyžaduje 1 000 až 1 000 000krát více výpočetních prostředků na bitovou informaci, ze které se model učí. 1/11