Nemotron-Cascade 2 de NVIDIA atteint le niveau medaille d'or en maths et en code avec un MoE de 30B n'utilisant que 3B de parametres actifs

Nemotron-Cascade 2 est un modele Mixture-of-Experts de 30B qui n’active que 3B de parametres par passe. C’est le deuxieme modele open-weight a atteindre le niveau medaille d’or a l’IMO 2025, l’IOI 2025 et aux Finales mondiales de l’ICPC - apres DeepSeek a 671B, soit plus de 20 fois la taille.

La technique principale est le Cascade RL : un apprentissage par renforcement sequentiel domaine par domaine, ou chaque domaine (maths, code, suivi d’instructions, agents SWE) dispose de ses propres hyperparametres sans destabiliser les autres. L’ajout novateur est la Multi-Domain On-Policy Distillation (MOPD) : quand une etape de Cascade RL provoque une regression sur d’autres benchmarks, on distille a la volee depuis le meilleur modele enseignant intermediaire pour ce domaine. Sur AIME 2025, MOPD a atteint les performances de l’enseignant en 30 etapes ; GRPO n’atteignait que 91.0 apres le meme nombre d’etapes.

Le compromis est explicite : il surpasse Qwen3.5-35B-A3B (un modele de taille comparable) sur les maths, le code et l’alignement, mais est en retrait sur les benchmarks de connaissance (MMLU-Pro, GPQA) et les taches agentiques. NVIDIA attribue cela a un pre-entrainement plus faible et a une couverture RL agentique insuffisante.

Les poids, les donnees SFT et les donnees RL sont tous ouverts.

Nemotron-Cascade 2 sur Hugging Face