Bästa föredraget om dåtid/nutid/framtid av kodningsutvärderingar på @aidotengineer CODE. I princip följer du det efter horisonter: andraplats: Copilot Arena protokoll: LiveCodeBench flera minuter: RepoChat ~timme: GSO flera timmar: Syzygy Dagar:??? när jag bjöd in @StringChaos att tala visste jag inte ens att han hade gått med @Cursor_ai på heltid; Jag hoppades bara på historien om LiveCodeBench. Istället fick vi mer än jag någonsin drömt om; En omfattande översikt över alla sätt på vilka kodningsutvärderingar har utvecklats de senaste tre åren och allt som communityn har lärt sig, inklusive O3:s belöningshackning, och nu benchmarks för att migrera VERKLIGEN stora mängder kod och onlineutvärderingar för att justera för latens och verkliga begränsningar. Slutar med några riktigt preskriptiva rekommendationer om du också bygger egna kodningsutvärderingar.