🤯BREAKING: Alibaba baru saja membuktikan bahwa AI Coding tidak mengambil pekerjaan Anda, itu hanya menulis kode lama yang akan membuat Anda tetap bekerja untuk memperbaikinya selama dekade berikutnya. 🤣 Lulus tes pengkodean sekali itu mudah. Mempertahankan kode itu selama 8 bulan tanpa meledak? Rupanya, hampir tidak mungkin untuk AI. Alibaba menguji 18 agen AI pada 100 basis kode nyata selama siklus 233 hari. Mereka tidak hanya mencari "perbaikan cepat"—mereka mencari kelangsungan hidup jangka panjang. Hasilnya adalah pertumpahan darah: 75% model merusak kode yang berfungsi sebelumnya selama pemeliharaan. Hanya Claude Opus 4.5/4.6 yang mempertahankan tingkat regresi nol >50%. Setiap model lain mengakumulasi hutang teknis yang bertambah parah hingga basis kode runtuh. Kami telah menggunakan tolok ukur "snapshot" seperti HumanEval yang hanya menanyakan "Apakah ini berfungsi sekarang?" Tolok ukur SWE-CI baru bertanya: "Apakah itu masih berfungsi setelah 8 bulan evolusi?" Sebagian besar agen AI adalah "Artis Perbaikan Cepat". Mereka menulis kode rapuh yang lulus tes hari ini tetapi menjadi mimpi buruk pemeliharaan besok. Mereka tidak membangun perangkat lunak; mereka sedang membangun rumah kartu. Narasinya menjadi jujur: Sebagian besar model dapat menulis kode. Hampir tidak ada yang bisa mempertahankannya.