La mejor charla sobre el pasado/presente/futuro de las evaluaciones de codificación en @aidotengineer CODE. Básicamente, se puede seguir por horizontes: segundos: Copilot Arena minutos: LiveCodeBench varios minutos: RepoChat ~hora: GSO varias horas: Syzygy días: ??? Cuando invité a @StringChaos a hablar, ni siquiera sabía que se había unido a @Cursor_ai a tiempo completo; solo esperaba la historia de LiveCodeBench. En cambio, obtuvimos más de lo que jamás soñé; una mirada integral a todas las formas en que las evaluaciones de codificación han evolucionado en los últimos 3 años y todo lo que la comunidad ha aprendido, incluyendo el hacking de recompensas de o3, y ahora benchmarks para migrar CANTIDADES REALMENTE grandes de código y evaluaciones en línea para ajustarse a la latencia y las limitaciones del mundo real. Termina con algunas recomendaciones realmente prescriptivas si también estás construyendo tus propias evaluaciones de codificación.