Model penalaran terbuka baru, K2-Think, baru-baru ini dirilis dengan skor yang sebanding dengan GPT-OSS 120B dan mendapat banyak perhatian media. Namun, kinerja mereka bergantung pada evaluasi yang cacat yang ditandai dengan kontaminasi, perbandingan yang tidak adil, dan kesalahan representasi hasil. 🧵