🤯BREAKING: Alibaba har nettopp bevist at AI-koding ikke tar jobben din, det er bare å skrive den eldre koden som vil holde deg i arbeid med å fikse det neste tiåret. 🤣 Å bestå en kodetest én gang er enkelt. Å opprettholde den koden i 8 måneder uten at den eksploderer? Tilsynelatende er det nesten umulig for AI. Alibaba testet 18 AI-agenter på 100 ekte kodebaser over 233-dagers sykluser. De lette ikke bare etter «raske løsninger» – de lette etter langsiktig overlevelse. Resultatet var et blodbad: 75 % av modellene brøt tidligere fungerende kode under vedlikehold. Kun Claude Opus 4.5/4.6 opprettholdt en null-regresjonsrate på >50 %. Alle andre modeller akkumulerte teknisk gjeld som økte til kodebasen kollapset. Vi har brukt "snapshot"-benchmarks som HumanEval som bare spør "Fungerer det akkurat nå?" Den nye SWE-CI-benchmarken spør: «Fungerer det fortsatt etter 8 måneders evolusjon?» De fleste AI-agenter er "Quick-Fix Artists." De skriver sprø kode som består tester i dag, men som blir et vedlikeholdsmareritt i morgen. De bygger ikke programvare; De bygger et korthus. Fortellingen ble nettopp ærlig: De fleste modeller kan skrive kode. Nesten ingen klarer å opprettholde den.