Il miglior intervento sul passato/presente/futuro delle valutazioni di codifica a @aidotengineer CODE. Fondamentalmente tracciarlo per orizzonti: secondi: Copilot Arena minuti: LiveCodeBench più minuti: RepoChat ~ora: GSO più ore: Syzygy giorni: ??? Quando ho invitato @StringChaos a parlare, non ero nemmeno a conoscenza che fosse entrato a far parte di @Cursor_ai a tempo pieno; speravo solo di sentire la storia di LiveCodeBench. Invece abbiamo ottenuto più di quanto avessi mai sognato; uno sguardo completo a tutti i modi in cui le valutazioni di codifica sono evolute negli ultimi 3 anni e tutto ciò che la comunità ha imparato, incluso l'hacking delle ricompense di o3, e ora benchmark per migrare VERAMENTE grandi quantità di codice e valutazioni online per adattarsi alla latenza e ai vincoli del mondo reale. Si conclude con alcune raccomandazioni effettivamente prescrittive se stai anche costruendo valutazioni di codifica tue.