Google a lancé Gemini 3.1 Flash Live via la Live API pour créer des agents vocaux et visuels en temps réel. Le modèle traite des flux continus d’audio, vidéo et texte pour fournir des réponses parlées immédiates avec détection de nuances acoustiques et support de 90+ langues.

Principales améliorations par rapport à Gemini 2.5 Flash Native Audio :

  • Meilleur filtrage du bruit dans des environnements réels
  • Respect renforcé des instructions système complexes
  • Dialogue plus naturel avec latence améliorée
  • Capacité de réflexion via thinkingLevel (minimal/low/medium/high) au lieu de thinkingBudget

Le modèle produit de l’audio natif (pas de pipeline STT+TTS) avec une fenêtre de contexte de 128k. Il supporte l’appel de fonctions synchrones, Google Search grounding et l’entrée vidéo en plus de l’audio.

import asyncio
from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

model = "gemini-3.1-flash-live-preview"
config = {"response_modalities": ["AUDIO"]}

async def main():
    async with client.aio.live.connect(model=model, config=config) as session:
        print("Session started")
        # Send content...

if __name__ == "__main__":
    asyncio.run(main())

Un seul événement serveur peut maintenant contenir plusieurs parties de contenu simultanément (chunks audio + transcription), donc traiter toutes les parties dans chaque événement.

Documentation Live API | Skill existante