Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯DERNIÈRE MINUTE : Alibaba vient de prouver que la programmation par IA ne prend pas votre emploi, elle écrit simplement le code hérité qui vous gardera employé à le réparer pendant la prochaine décennie. 🤣
Passer un test de codage une fois est facile. Maintenir ce code pendant 8 mois sans qu'il n'explose ? Apparemment, c'est presque impossible pour l'IA.
Alibaba a testé 18 agents IA sur 100 bases de code réelles sur des cycles de 233 jours. Ils n'ont pas seulement cherché des "solutions rapides" — ils ont cherché la survie à long terme.
Les résultats ont été un véritable carnage :
75 % des modèles ont cassé du code qui fonctionnait auparavant pendant la maintenance.
Seul Claude Opus 4.5/4.6 a maintenu un taux de zéro-régression >50 %.
Tous les autres modèles ont accumulé une dette technique qui s'est aggravée jusqu'à l'effondrement de la base de code.
Nous avons utilisé des benchmarks "instantanés" comme HumanEval qui ne demandent que "Est-ce que ça fonctionne maintenant ?"
Le nouveau benchmark SWE-CI demande : "Est-ce que ça fonctionne toujours après 8 mois d'évolution ?"
La plupart des agents IA sont des "Artistes du dépannage rapide". Ils écrivent un code fragile qui passe les tests aujourd'hui mais devient un cauchemar de maintenance demain. Ils ne construisent pas de logiciels ; ils construisent une maison de cartes.
Le récit vient de devenir honnête : La plupart des modèles peuvent écrire du code. Presque aucun ne peut le maintenir.

Meilleurs
Classement
Favoris
