Mistral Small 4 remplace trois modeles Mistral distincts - Magistral pour le raisonnement, Devstral pour les agents de code, et Mistral Small pour les instructions
-
par un seul modele MoE de 119 milliards de parametres (128 experts, 4 actifs, 6,5 milliards de parametres actifs par token). Le comportement se choisit par requete via un parametre
reasoning_effort: -
reasoning_effort="none": reponses rapides style chat, equivalent a Mistral Small 3.2 -
reasoning_effort="high": raisonnement approfondi etape par etape, equivalent a Magistral
Memes poids, meme deploiement, comportement different au moment de l’inference.
Les chiffres d’efficacite sont notables: il egale ou surpasse GPT-OSS 120B sur LCR, LiveCodeBench et AIME 2025 tout en produisant 20 a 75 % de sorties plus courtes que les modeles de raisonnement Qwen comparables a scores similaires. Autres specs: fenetre de contexte de 256k, multimodal (texte + image en entree), Apache 2.0.
Point de controle quantifie NVFP4
Mistral a egalement publie une version quantifiee NVFP4 (virgule flottante 4 bits)
(Mistral-Small-4-119B-2603-NVFP4), creee avec llm-compressor en collaboration
avec vLLM et Red Hat, avec NVIDIA contribuant des optimisations de noyaux pour vLLM
et SGLang. Elle utilise une quantification post-activation a l’entrainement, ce qui
permet de maintenir une precision proche du BF16 de base tout en reduisant
significativement l’empreinte memoire et en ameliorant le debit.
Le point de controle NVFP4 utilise un indicateur de backend d’attention different lors du service:
# Modele de base
vllm serve mistralai/Mistral-Small-4-119B-2603 \
--attention-backend FLASH_ATTN_MLA \
--tensor-parallel-size 2 ...
# NVFP4 quantifie
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \
--attention-backend TRITON_MLA \
--tensor-parallel-size 2 ...
Les deux modeles necessitent une version vLLM personnalisee jusqu’a ce que les
correctifs de parsing Mistral arrivent dans la branche principale (prevu mi-mars 2026).
Mistral fournit une image Docker (mistralllm/vllm-ms4:latest) avec tout pre-configure.