Beste gesprek over het verleden/huidige/toekomst van coding evals bij @aidotengineer CODE. Volg het eigenlijk op basis van horizons: seconden: Copilot Arena minuten: LiveCodeBench meerdere minuten: RepoChat ~uur: GSO meerdere uren: Syzygy dagen: ??? Toen ik @StringChaos uitnodigde om te spreken, was ik me er niet eens van bewust dat hij fulltime bij @Cursor_ai was gaan werken; ik hoopte gewoon op het verhaal van LiveCodeBench. In plaats daarvan kregen we meer dan ik ooit had durven dromen; een uitgebreide kijk op alle manieren waarop koding evals zijn geëvolueerd in de afgelopen 3 jaar en alles wat de gemeenschap heeft geleerd, inclusief o3's reward hacking, en nu benchmarks om ECHT grote hoeveelheden code en online evals te migreren om aan te passen voor latentie en echte wereldbeperkingen. Eindigt met enkele daadwerkelijk prescriptieve aanbevelingen als je ook je eigen coding evals bouwt.