Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯BREAKING: Alibaba heeft net bewezen dat AI Coderen je baan niet afpakt, het schrijft gewoon de legacy code die je de komende tien jaar in staat houdt om het te repareren. 🤣
Een codetest eenmaal doorstaan is gemakkelijk. Die code 8 maanden onderhouden zonder dat het explodeert? Blijkbaar is dat bijna onmogelijk voor AI.
Alibaba testte 18 AI-agenten op 100 echte codebases over een periode van 233 dagen. Ze zochten niet alleen naar "snelle oplossingen"—ze zochten naar langdurige overleving.
De resultaten waren een bloedbad:
75% van de modellen brak eerder werkende code tijdens het onderhoud.
Alleen Claude Opus 4.5/4.6 handhaafde een >50% nul-regressiepercentage.
Elk ander model accumuleerde technische schuld die zich ophoopte totdat de codebase instortte.
We hebben "snapshot" benchmarks gebruikt zoals HumanEval die alleen vragen "Werkt het nu?"
De nieuwe SWE-CI benchmark vraagt: "Werkt het nog steeds na 8 maanden evolutie?"
De meeste AI-agenten zijn "Snelle-Oplossing Kunstenaars." Ze schrijven broze code die vandaag de tests doorstaat, maar morgen een onderhoudsnachtmerrie wordt. Ze bouwen geen software; ze bouwen een kaartenhuis.
Het verhaal is net eerlijk geworden: De meeste modellen kunnen code schrijven. Bijna geen enkele kan het onderhouden.

Boven
Positie
Favorieten
