Mistral випустила Mistral Small 4 — відкриту модель з вагами з гібридним міркуванням і вводом зображень, яка отримала 27 балів у Індексі штучного аналізу інтелекту Small 4 від @MistralAI — це 119B модель зі змішаними експертами з 6,5 млрд активних параметрів на токен, що підтримує як режими міркування, так і нелогічні режими. У режимі міркування Mistral Small 4 отримує 27 балів за Індексом інтелекту штучного аналізу, що на 12 балів краще, ніж Small 3.2 (15), і тепер є однією з найінтелектуальніших моделей, випущених Mistral, перевершуючи Mistral Large 3 (23) і зрівнявшись із власним Magistral Medium 1.2 (27). Однак він відстає від відкритих вагових однолітків із подібною загальною кількістю параметрів, таких як gpt-oss-120B (високий, 33), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36) та Qwen3.5 122B A10B (Reasoning, 42). Основні висновки: ➤ Режими міркування та нелогічного розсудження в одній моделі: Mistral Small 4 підтримує налаштовуване гібридне міркування з режимами мислення та нелогічного розсудування, на відміну від окремих варіантів мислення, які Mistral раніше випускала зі своїми моделями Magistral. У режимі мислення модель отримує 27 балів за Індексом інтелекту штучного аналізу. У режимі без логіки модель отримує 19 балів, що на 4 бали більше, ніж попередник Mistral Small 3.2 (15) ➤ Більш ефективний у використанні токенів, ніж аналоги подібного розміру: При ~52M вихідних токенів Mistral Small 4 (Reasoning) використовує менше токенів для запуску Artificial Analysis Intelligence Index порівняно з моделями логікування, такими як gpt-oss-120B (високий, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) та Qwen3.5 122B A10B (Reasoning, ~91M). У режимі нелогізування модель використовує токени виводу ~4M ➤ Нативна підтримка введення зображень: Mistral Small 4 — це мультимодальна модель, яка приймає введення зображень і тексту. У нашій мультимодальній оцінці MMMU-Pro Mistral Small 4 (Reasoning) отримує 57%, випереджаючи Mistral Large 3 (56%), але поступається Qwen3.5 122B A10B (Reasoning, 75%). Ні gpt-oss-120B, ні NVIDIA Nemotron 3 Super 120B A12B не підтримують вхід зображень. Усі моделі підтримують лише текстовий вихід ➤ Покращення у реальних агентних завданнях: Mistral Small 4 оцінює Elo 871 за GDPval-AA, нашою оцінкою на основі набору даних OpenAI GDPval, який тестує моделі на реальних завданнях у 44 професіях і 9 основних галузях, а моделі створюють результати, такі як документи, електронні таблиці та діаграми, у агентному циклі. Це більш ніж удвічі вище за Elo Small 3.2 (339) і близько до Mistral Large 3 (880), але поступається gpt-oss-120B (високий показник 962), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 1021) та Qwen3.5 122B A10B (Reasoning, 1130) ➤ Нижчий рівень галюцинацій порівняно з моделями подібного розміру: Mistral Small 4 оцінює -30 за AA-Omniscience, наша оцінка надійності знань і галюцинацій, де бали коливаються від -100 до 100 (вищий — це краще), а негативний бал вказує на більше неправильних, ніж правильних відповідей. Mistral Small 4 випереджає gpt-oss-120B (високий, -50), Qwen3.5 122B A10B (Reasoning, -40) та NVIDIA Nemotron 3 Super 120B A12B (Reasoning, -42) Ключові деталі моделі: ➤ Контекстне вікно: 256 тис. токенів (порівняно з 128 тис. на Small 3.2) ➤ Ціноутворення: $0.15/$0.6 за 1M вхідних/вихідних токенів ➤ Доступність: Лише Mistral першосторонній API. При рідній точності FP8 параметри Mistral Small 4 119B потребують ~119GB для самостійного розміщення ваг (більше, ніж 80GB пам'яті HBM3 на одному NVIDIA H100) ➤ Модальність: введення зображень і тексту з виходом лише текстом ➤ Ліцензування: ліцензія Apache 2.0
Щодо інтелекту проти загальних параметрів, Mistral Small 4 (Reasoning, 27) пропонує менш вигідний компроміс, ніж аналоги подібних розмірів, такі як gpt-oss-120B (високий, 33), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, 36) та Qwen3.5 122B A10B (Reasoning, 42)
При ~52M вихідних токенів Mistral Small 4 (Reasoning) використовує менше токенів для запуску Artificial Analysis Intelligence Index порівняно з аналогічними моделями, такими як gpt-oss-120B (високий, ~78M), NVIDIA Nemotron 3 Super 120B A12B (Reasoning, ~110M) та Qwen3.5 122B A10B (Reasoning, ~91M)
Повний розподіл результатів:
Повні результати доступні на сторінці моделі Mistral Small 4 про штучний аналіз:
10,6K