Cohere, surtout connu pour ses modeles de texte et d’embeddings, vient de lancer un modele de reconnaissance vocale qui atteint la premiere place du classement Open ASR de HuggingFace: 5,42% de WER moyen contre 7,44% pour Whisper Large v3. Il fait 2 milliards de parametres, est sous licence Apache 2.0, et disponible sur HuggingFace aujourd’hui.

L’architecture est un Conformer: un hybride de CNN et de Transformers. Les CNN gerent les caracteristiques acoustiques locales (phonemes, transitions rapides), les Transformers gerent le contexte global. Leur imbrication est l’astuce standard pour la reconnaissance vocale; le pari de Cohere est qu’un entrainement dedie, fait from scratch et axe sur le WER, surpasse l’approche generaliste.

Pour les longs enregistrements, le modele decoupe en segments de 35 secondes avec chevauchement puis reassemble, ce qui permet de traiter un enregistrement d’une heure sans problemes de VRAM.

Les limitations a connaitre: pas de diarisation des locuteurs, pas d’horodatage, pas de detection automatique de langue (vous specifiez la langue au prealable), et un comportement inconsistant sur l’audio avec changement de langue. Il supporte 14 langues.

texts = model.transcribe(processor=processor, audio_files=[audio_file], language="en")