Birçok temel modeli şaşkınlık temelli değerlendirmelerle değerlendirdik ve Kimi k2.5 en güçlü olduğunu kanıtladı! Bundan sonra, devam eden ön eğitim ve yüksek hesaplamalı RL (4x ölçeklendirme) yapıyoruz. Güçlü taban, CPT ve RL ile Fireworks'ün çıkarımları ve RL samplerlarının birleşimi, Composer-2'yi sınır seviyesine getiriyor. Blogumuzda Kimi üssünden baştan bahsetmemek bir hata oldu. Bunu bir sonraki model için düzelteceğiz.