Ai | Christian Roy

opencode avec un Qwen3.6-35B-A3B local a itéré jusqu'à un jouet web de physique des couleurs fonctionnel

J’ai donné à opencode un cahier des charges d’un paragraphe : « un canvas HTML où des cercles colorés s’attirent selon des teintes similaires et se repoussent quand ils sont opposés », et je l’ai branché sur la quantification d’unsloth de Qwen3.6-35B-A3B (UD-Q8_K_XL, ~3 milliards de paramètres actifs) tournant en local. Une douzaine de tours de pilotage plus tard, à corriger des bugs et ajuster le comportement, j’avais une démo fonctionnelle dans un seul fichier. ...

Gemini 3.1 Flash Live : IA vocale à faible latence avec sortie audio native

Google a lancé Gemini 3.1 Flash Live via la Live API pour créer des agents vocaux et visuels en temps réel. Le modèle traite des flux continus d’audio, vidéo et texte pour fournir des réponses parlées immédiates avec détection de nuances acoustiques et support de 90+ langues. Principales améliorations par rapport à Gemini 2.5 Flash Native Audio : Meilleur filtrage du bruit dans des environnements réels Respect renforcé des instructions système complexes Dialogue plus naturel avec latence améliorée Capacité de réflexion via thinkingLevel (minimal/low/medium/high) au lieu de thinkingBudget Le modèle produit de l’audio natif (pas de pipeline STT+TTS) avec une fenêtre de contexte de 128k. Il supporte l’appel de fonctions synchrones, Google Search grounding et l’entrée vidéo en plus de l’audio. ...

Cohere Transcribe devance Whisper Large v3 sur le classement ASR de HuggingFace avec un modele open source de 2 milliards de parametres

Cohere, surtout connu pour ses modeles de texte et d’embeddings, vient de lancer un modele de reconnaissance vocale qui atteint la premiere place du classement Open ASR de HuggingFace: 5,42% de WER moyen contre 7,44% pour Whisper Large v3. Il fait 2 milliards de parametres, est sous licence Apache 2.0, et disponible sur HuggingFace aujourd’hui. L’architecture est un Conformer: un hybride de CNN et de Transformers. Les CNN gerent les caracteristiques acoustiques locales (phonemes, transitions rapides), les Transformers gerent le contexte global. Leur imbrication est l’astuce standard pour la reconnaissance vocale; le pari de Cohere est qu’un entrainement dedie, fait from scratch et axe sur le WER, surpasse l’approche generaliste. ...

Covo-Audio de Tencent est un modele audio bout-en-bout de 7 milliards de parametres avec conversation en duplex integral via les tokens THINK, SHIFT et BREAK

La plupart des pipelines vocaux IA sont cascades: l’ASR transcrit, un LLM raisonne, le TTS parle. Covo-Audio effondre ces trois etapes en un seul modele de 7 milliards de parametres qui prend de l’audio en entree et produit de l’audio en sortie, construit sur Qwen2.5-7B avec un encodeur Whisper-large-v3. La variante duplex integral (Covo-Audio-Chat-FD) est la partie interessante. Elle gere l’ecoute et la parole simultanees via trois tokens speciaux integres dans l’architecture: THINK (ecoute, pas encore de reponse), SHIFT (passage au tour de parole du modele), et BREAK (l’utilisateur a interrompu, arreter de parler immediatement). Chaque segment audio fait 0,16 seconde. Les flux du modele et de l’utilisateur sont entrelaces dans un ratio 1:4. ...

Le connecteur MCP officiel d'Asana pour Claude ne peut pas creer de taches dans Claude Code CLI car ses outils necessitent une interface interactive

Le connecteur officiel Claude d’Asana utilise un outil appele create_task_preview plutot que create_task. Le nom suggere un apercu, mais c’est en realite l’outil principal de creation dans l’integration v2. Le probleme: il necessite une interface interactive pour afficher une etape de confirmation. Claude Code CLI ne peut pas afficher cette interface, donc la creation de taches echoue silencieusement. Cela a ete mis en evidence dans le forum Asana apres que create_task ait aussi disparu temporairement du jeu d’outils v1 (Asana l’avait accidentellement supprime lors d’une mise a jour v2, maintenant restaure). Asana a confirme le probleme CLI separement et a indique travailler sur la detection de si la surface supporte l’interactivite avant de proposer des outils interactifs. Estimation: environ une semaine a partir du 26 mars. ...

TurboQuant de Google compresse les caches KV des LLMs par 6 sans perte de precision et avec un temps d'indexation quasi nul

Le cache KV est un goulot d’etranglement majeur en memoire pour l’inference LLM en contexte long. Les methodes traditionnelles de quantification vectorielle comme la quantification par produit necessitent un entrainement de codebook specifique au jeu de donnees qui peut prendre des centaines de secondes. TurboQuant, de Google Research (ICLR 2026), est independant des donnees: pas d’entrainement, pas de calibration, fonctionne instantanement. L’intuition cle: appliquer une rotation aleatoire aux vecteurs d’entree induit une distribution Beta concentree sur chaque coordonnee en haute dimension, rendant les coordonnees presque i.i.d. Cela permet de resoudre un simple probleme de quantification scalaire 1D par coordonnee plutot qu’une optimisation conjointe complexe. Les codebooks sont precalcules une fois par largeur de bits et reutilises au moment de l’inference. ...

TinyLoRA affine un modele de 7 milliards de parametres a 91,8% sur GSM8K avec seulement 13 parametres grace au RL

Un modele Qwen2.5-7B-Instruct affine avec 13 parametres entrainables (26 octets en bf16) atteint 91,8% sur GSM8K. L’affinage complet de 7,6 milliards de parametres atteint 91,7%. Ce chiffre n’est pas une erreur de frappe, et oui, ce sont le meme type de parametres. Pour comprendre pourquoi c’est possible, il faut savoir ce que ces 13 parametres font reellement. Ce ne sont pas 13 poids remplacant 7,6 milliards d’autres. Ce sont 13 valeurs scalaires projetees a travers un tenseur aleatoire fixe en une mise a jour de haute dimension, qui est ensuite ajoutee aux matrices de poids geles dans toutes les couches. Vous ne reglez pas 13 boutons a la place de 7,6 milliards - vous reglez 13 directions de changement qui affectent chacune l’ensemble du modele via une transformation mathematique fixe. Les poids geles font tout le travail; la mise a jour minuscule les oriente. ...

GitAgent définit les agents IA comme des dépôts git, exportables vers n'importe quel framework avec une seule commande CLI

GitAgent propose que votre dépôt git est votre agent. Deux fichiers obligatoires - agent.yaml (le manifeste) et SOUL.md (l’identité) - définissent l’agent. Tout le reste - skills, outils, mémoire, artefacts de conformité - est une structure optionnelle ajoutée par-dessus. La partie intéressante est le modèle de supervision : quand un agent met à jour sa mémoire ou acquiert un nouveau skill, le changement devient un commit git ou une PR. Les réviseurs humains peuvent examiner les diff des changements de personnalité de l’agent comme n’importe quelle revue de code. Si le comportement dérive, git revert le ramène en arrière. ...

Nemotron-Cascade 2 de NVIDIA atteint le niveau medaille d'or en maths et en code avec un MoE de 30B n'utilisant que 3B de parametres actifs

Nemotron-Cascade 2 est un modele Mixture-of-Experts de 30B qui n’active que 3B de parametres par passe. C’est le deuxieme modele open-weight a atteindre le niveau medaille d’or a l’IMO 2025, l’IOI 2025 et aux Finales mondiales de l’ICPC - apres DeepSeek a 671B, soit plus de 20 fois la taille. La technique principale est le Cascade RL : un apprentissage par renforcement sequentiel domaine par domaine, ou chaque domaine (maths, code, suivi d’instructions, agents SWE) dispose de ses propres hyperparametres sans destabiliser les autres. L’ajout novateur est la Multi-Domain On-Policy Distillation (MOPD) : quand une etape de Cascade RL provoque une regression sur d’autres benchmarks, on distille a la volee depuis le meilleur modele enseignant intermediaire pour ce domaine. Sur AIME 2025, MOPD a atteint les performances de l’enseignant en 30 etapes ; GRPO n’atteignait que 91.0 apres le meme nombre d’etapes. ...

GLM-OCR : un spécialiste du parsing de documents 0.9B qui bat des modèles 235B

GLM-OCR est un modèle multimodal OCR de 0.9B qui atteint 94.62 sur OmniDocBench V1.5, se classant premier malgré sa taille compacte. Développé par Zhipu AI, il bat Qwen3-VL-235B (260× plus de paramètres) et Gemini-3 Pro sur les benchmarks de parsing de documents. Le modèle combine un encodeur visuel CogViT de 0.4B avec un décodeur GLM de 0.5B. Son innovation clé est la Prédiction Multi-Jeton (MTP), qui prédit 10 jetons par étape au lieu d’un seul. Pour l’OCR—une tâche déterministe—vous copiez des caractères, pas vous échantillonnez du texte créatif. Cela offre un débit environ 50% plus élevé que le décodage standard. ...