Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🤯СРОЧНО: Alibaba только что доказала, что AI-кодирование не забирает вашу работу, оно просто пишет устаревший код, который будет держать вас занятым его исправлением в течение следующего десятилетия. 🤣
Сдать тест по программированию один раз легко. Поддерживать этот код в течение 8 месяцев, не давая ему взорваться? По-видимому, это почти невозможно для AI.
Alibaba протестировала 18 AI-агентов на 100 реальных кодовых базах в течение 233-дневных циклов. Они не просто искали "быстрые решения" — они искали долгосрочную устойчивость.
Результаты были кровавыми:
75% моделей сломали ранее работающий код во время обслуживания.
Только Claude Opus 4.5/4.6 поддерживал >50% нулевую регрессию.
Каждая другая модель накопила технический долг, который нарастал, пока кодовая база не рухнула.
Мы использовали "снимковые" бенчмарки, такие как HumanEval, которые только спрашивают: "Работает ли это прямо сейчас?"
Новый бенчмарк SWE-CI спрашивает: "Работает ли это все еще после 8 месяцев эволюции?"
Большинство AI-агентов — это "Мастера Быстрых Решений". Они пишут хрупкий код, который проходит тесты сегодня, но становится кошмаром для обслуживания завтра. Они не создают программное обеспечение; они строят карточный домик.
Нарратив стал честным: большинство моделей могут писать код. Почти ни одна не может его поддерживать.

Топ
Рейтинг
Избранное
