Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯BREAKING: Alibaba har nettopp bevist at AI-koding ikke tar jobben din, det er bare å skrive den eldre koden som vil holde deg i arbeid med å fikse det neste tiåret. 🤣
Å bestå en kodetest én gang er enkelt. Å opprettholde den koden i 8 måneder uten at den eksploderer? Tilsynelatende er det nesten umulig for AI.
Alibaba testet 18 AI-agenter på 100 ekte kodebaser over 233-dagers sykluser. De lette ikke bare etter «raske løsninger» – de lette etter langsiktig overlevelse.
Resultatet var et blodbad:
75 % av modellene brøt tidligere fungerende kode under vedlikehold.
Kun Claude Opus 4.5/4.6 opprettholdt en null-regresjonsrate på >50 %.
Alle andre modeller akkumulerte teknisk gjeld som økte til kodebasen kollapset.
Vi har brukt "snapshot"-benchmarks som HumanEval som bare spør "Fungerer det akkurat nå?"
Den nye SWE-CI-benchmarken spør: «Fungerer det fortsatt etter 8 måneders evolusjon?»
De fleste AI-agenter er "Quick-Fix Artists." De skriver sprø kode som består tester i dag, men som blir et vedlikeholdsmareritt i morgen. De bygger ikke programvare; De bygger et korthus.
Fortellingen ble nettopp ærlig: De fleste modeller kan skrive kode. Nesten ingen klarer å opprettholde den.

Topp
Rangering
Favoritter
