Paras keskustelu koodausarvioiden menneisyydestä, nykyisyydestä ja tulevaisuudesta @aidotengineer CODEssa. Käytännössä seuraa sitä horisonttien mukaan: toiset: Copilot Arena minuutit: LiveCodeBench useita minuutisia: RepoChat ~tunti: GSO useita tunteja: Syzygia Päivää:??? kun kutsuin @StringChaos puhumaan, en edes tiennyt, että hän oli liittynyt @Cursor_ai kokopäiväisesti; Toivoin vain LiveCodeBenchin tarinaa. Sen sijaan saimme enemmän kuin koskaan unelmoin; Kattava katsaus kaikkiin tapoihin, joilla koding-arvioinnit ovat kehittyneet viimeisen kolmen vuoden aikana ja kaikkeen, mitä yhteisö on oppinut, mukaan lukien O3:n palkitsemishakkerointi sekä nyt benchmarkit, joilla siirretään todella suuria määriä koodia ja online-arviointeja viiveen ja todellisten rajoitteiden mukaan. Päättyy joihinkin oikeasti ohjeisiin suosituksiin, jos rakennat myös omia koodausarviointeja.