Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯ULTIMA ORĂ: Alibaba tocmai a demonstrat că programarea AI nu îți ia locul, ci doar scrie codul vechi care te va ține angajat să-l repari pentru următorul deceniu. 🤣
Să treci un test de programare o dată este ușor. Să menții acel cod timp de 8 luni fără să explodeze? Se pare că este aproape imposibil pentru AI.
Alibaba a testat 18 agenți AI pe 100 de baze de cod reale pe parcursul unor cicluri de 233 de zile. Nu căutau doar "soluții rapide" — căutau supraviețuire pe termen lung.
Rezultatul a fost o baie de sânge:
75% dintre modele au încălcat codul anterior funcțional în timpul întreținerii sale.
Doar Claude Opus 4.5/4.6 au menținut o rată de regresie zero de >50%.
Toate celelalte modele au acumulat datorii tehnice care s-au acumulat până când baza de cod s-a prăbușit.
Am folosit benchmark-uri "snapshot" precum HumanEval, care întreabă doar "Funcționează acum?"
Noul benchmark SWE-CI întreabă: "Funcționează încă după 8 luni de evoluție?"
Majoritatea agenților AI sunt "Artiști Quick-Fix". Scriu cod fragil care trece testele astăzi, dar devine un coșmar de mentenanță mâine. Nu construiesc software; Construiesc un castel de cărți.
Narațiunea tocmai a devenit sinceră: majoritatea modelelor pot scrie cod. Aproape nimeni nu o poate menține.

Limită superioară
Clasament
Favorite
