Avem nevoie de noi benchmark-uri pentru soluții cu complexitate redusă la probleme de cod. Fiecare caracteristică nouă este ca un bloc jenga într-un turn, iar benchmark-urile actuale clasifică doar cât de bine este asamblat fiecare bloc. Avem nevoie de evaluări care să urmărească cât de înalt poți stivă blocurile înainte ca turnul să se prăbușească.