🤯NOVINKA: Alibaba právě dokázala, že AI programování vám nebere práci, ale jen psaní staršího kódu, který vás udrží na opravě na příští desetiletí. 🤣 Jednou složit programovací test je snadné. Udržovat ten kód 8 měsíců, aniž by to explodovalo? Zřejmě je to pro AI téměř nemožné. Alibaba testovala 18 AI agentů na 100 skutečných kódových základnách během 233denních cyklů. Nehledali jen "rychlá řešení" – hledali dlouhodobé přežití. Výsledkem byla krvavá lázeň: 75 % modelů během údržby porušilo dříve funkční kód. Pouze Claude Opus 4,5/4,6 udržel nulovou regresi >50 %. Každý jiný model nahromadil technický dluh, který se zvyšoval, dokud se kódová základna nezhroutila. Používáme "snapshot" benchmarky jako HumanEval, které se ptají jen "Funguje to právě teď?" Nový benchmark SWE-CI se ptá: "Funguje to stále i po 8 měsících vývoje?" Většina AI agentů jsou "Quick-Fix Artists". Píší křehký kód, který dnes projde testy, ale zítra se stane noční můrou údržby. Nevytvářejí software; Staví domeček z karet. Příběh se právě stal upřímným: Většina modelů umí psát kód. Téměř nikdo ji nedokáže udržet.