Covo-Audio de Tencent est un modele audio bout-en-bout de 7 milliards de parametres avec conversation en duplex integral via les tokens THINK, SHIFT et BREAK

La plupart des pipelines vocaux IA sont cascades: l’ASR transcrit, un LLM raisonne, le TTS parle. Covo-Audio effondre ces trois etapes en un seul modele de 7 milliards de parametres qui prend de l’audio en entree et produit de l’audio en sortie, construit sur Qwen2.5-7B avec un encodeur Whisper-large-v3.

La variante duplex integral (Covo-Audio-Chat-FD) est la partie interessante. Elle gere l’ecoute et la parole simultanees via trois tokens speciaux integres dans l’architecture: THINK (ecoute, pas encore de reponse), SHIFT (passage au tour de parole du modele), et BREAK (l’utilisateur a interrompu, arreter de parler immediatement). Chaque segment audio fait 0,16 seconde. Les flux du modele et de l’utilisateur sont entrelaces dans un ratio 1:4.

La technique de decouplage intelligence-locuteur est egalement notable: l’intelligence dialogue et le rendu vocal sont entraines separement, ce qui permet de personnaliser la voix avec un minimum de donnees TTS sans reentrainer la couche de raisonnement.

Une mise en garde a noter: une issue GitHub ouverte le jour de la sortie signale que le code d’inference duplex integral n’est pas encore dans le depot public. L’article montre de bons resultats mais il n’est pas clair si ceux-ci sont reproductibles depuis la version open source actuelle.