Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Beste gesprek over het verleden/huidige/toekomst van coding evals bij @aidotengineer CODE. Volg het eigenlijk op basis van horizons:
seconden: Copilot Arena
minuten: LiveCodeBench
meerdere minuten: RepoChat
~uur: GSO
meerdere uren: Syzygy
dagen: ???
Toen ik @StringChaos uitnodigde om te spreken, was ik me er niet eens van bewust dat hij fulltime bij @Cursor_ai was gaan werken; ik hoopte gewoon op het verhaal van LiveCodeBench. In plaats daarvan kregen we meer dan ik ooit had durven dromen; een uitgebreide kijk op alle manieren waarop koding evals zijn geëvolueerd in de afgelopen 3 jaar en alles wat de gemeenschap heeft geleerd, inclusief o3's reward hacking, en nu benchmarks om ECHT grote hoeveelheden code en online evals te migreren om aan te passen voor latentie en echte wereldbeperkingen. Eindigt met enkele daadwerkelijk prescriptieve aanbevelingen als je ook je eigen coding evals bouwt.



Boven
Positie
Favorieten
