Beste foredrag om fortid/nåtid/fremtid for kodeevalueringer på @aidotengineer CODE. I bunn og grunn spor det etter horisonter: Andreplass: Copilot Arena referater: LiveCodeBench flere minutter: RepoChat ~time: GSO flere timer: Syzygy Dager:??? da jeg inviterte @StringChaos til å snakke, var jeg ikke engang klar over at han hadde blitt med @Cursor_ai på heltid; Jeg håpet bare på historien om LiveCodeBench. I stedet fikk vi mer enn jeg noen gang hadde drømt om; En omfattende oversikt over alle måtene kodingevalueringer har utviklet seg de siste 3 årene og alt fellesskapet har lært, inkludert O3s belønningshacking, og nå benchmarks for å migrere VIRKELIG store mengder kode og nettbaserte evalueringer for å justere latens og reelle begrensninger. Avsluttes med noen faktisk preskriptive anbefalinger hvis du også lager kodingsevalueringer selv.