🤯СРОЧНО: Alibaba только что доказала, что AI-кодирование не забирает вашу работу, оно просто пишет устаревший код, который будет держать вас занятым его исправлением в течение следующего десятилетия. 🤣 Сдать тест по программированию один раз легко. Поддерживать этот код в течение 8 месяцев, не давая ему взорваться? По-видимому, это почти невозможно для AI. Alibaba протестировала 18 AI-агентов на 100 реальных кодовых базах в течение 233-дневных циклов. Они не просто искали "быстрые решения" — они искали долгосрочную устойчивость. Результаты были кровавыми: 75% моделей сломали ранее работающий код во время обслуживания. Только Claude Opus 4.5/4.6 поддерживал >50% нулевую регрессию. Каждая другая модель накопила технический долг, который нарастал, пока кодовая база не рухнула. Мы использовали "снимковые" бенчмарки, такие как HumanEval, которые только спрашивают: "Работает ли это прямо сейчас?" Новый бенчмарк SWE-CI спрашивает: "Работает ли это все еще после 8 месяцев эволюции?" Большинство AI-агентов — это "Мастера Быстрых Решений". Они пишут хрупкий код, который проходит тесты сегодня, но становится кошмаром для обслуживания завтра. Они не создают программное обеспечение; они строят карточный домик. Нарратив стал честным: большинство моделей могут писать код. Почти ни одна не может его поддерживать.