Mistral Small 4 fusionne instruct, raisonnement et code en un seul modele avec un effort de raisonnement configurable par requete

Mistral Small 4 remplace trois modeles Mistral distincts - Magistral pour le raisonnement, Devstral pour les agents de code, et Mistral Small pour les instructions

par un seul modele MoE de 119 milliards de parametres (128 experts, 4 actifs, 6,5 milliards de parametres actifs par token). Le comportement se choisit par requete via un parametre reasoning_effort:
reasoning_effort="none": reponses rapides style chat, equivalent a Mistral Small 3.2
reasoning_effort="high": raisonnement approfondi etape par etape, equivalent a Magistral

Memes poids, meme deploiement, comportement different au moment de l’inference.

Les chiffres d’efficacite sont notables: il egale ou surpasse GPT-OSS 120B sur LCR, LiveCodeBench et AIME 2025 tout en produisant 20 a 75 % de sorties plus courtes que les modeles de raisonnement Qwen comparables a scores similaires. Autres specs: fenetre de contexte de 256k, multimodal (texte + image en entree), Apache 2.0.

Point de controle quantifie NVFP4

Mistral a egalement publie une version quantifiee NVFP4 (virgule flottante 4 bits) (Mistral-Small-4-119B-2603-NVFP4), creee avec llm-compressor en collaboration avec vLLM et Red Hat, avec NVIDIA contribuant des optimisations de noyaux pour vLLM et SGLang. Elle utilise une quantification post-activation a l’entrainement, ce qui permet de maintenir une precision proche du BF16 de base tout en reduisant significativement l’empreinte memoire et en ameliorant le debit.

Le point de controle NVFP4 utilise un indicateur de backend d’attention different lors du service:

# Modele de base
vllm serve mistralai/Mistral-Small-4-119B-2603 \
  --attention-backend FLASH_ATTN_MLA \
  --tensor-parallel-size 2 ...

# NVFP4 quantifie
vllm serve mistralai/Mistral-Small-4-119B-2603-NVFP4 \
  --attention-backend TRITON_MLA \
  --tensor-parallel-size 2 ...

Les deux modeles necessitent une version vLLM personnalisee jusqu’a ce que les correctifs de parsing Mistral arrivent dans la branche principale (prevu mi-mars 2026). Mistral fournit une image Docker (mistralllm/vllm-ms4:latest) avec tout pre-configure.

Mistral Small 4 sur Hugging Face Point de controle NVFP4

Point de controle quantifie NVFP4#

Point de controle quantifie NVFP4