La mejor charla sobre el pasado/presente/futuro de las evaluaciones de programación en @aidotengineer CODE. Básicamente, hazlo un seguimiento por horizontes: segundos: Copilot Arena actas: LiveCodeBench varios minutos: RepoChat ~hora: GSO varias horas: Sízygia ¿¿¿Días:??? cuando @StringChaos invité a hablar ni siquiera sabía que se había incorporado a @Cursor_ai a tiempo completo; Solo esperaba la historia de LiveCodeBench. En cambio, conseguimos más de lo que jamás soñé; una mirada exhaustiva a todas las formas en que las evaluaciones de koding han evolucionado en los últimos 3 años y todo lo que la comunidad ha aprendido, incluyendo el hacking de recompensas de O3, y ahora benchmarks para migrar cantidades REALMENTE grandes de código y evaluaciones online para ajustar la latencia y las limitaciones del mundo real. Termina con algunas recomendaciones realmente prescriptivas si también estás creando evaluaciones de programación propias.