Lyria 3 de Google DeepMind génère des chansons complètes à partir d'une photo ou d'une phrase

Lyria 3 prend un prompt texte ou une image et produit un track complet: instrumentation, voix, paroles. Pas une boucle, pas un mood board. Une chanson.

L’entrée image, c’est ce qui le rend intéressant. La plupart des modèles audio génératifs prennent du texte. Lyria 3 peut regarder une photo et décider à quoi ça ressemble soniquement. C’est un type d’interprétation créative différent, plus proche de la façon dont un compositeur pourrait répondre à une œuvre visuelle que d’une spec écrite.

La génération vocale et des paroles en un seul shot est aussi notable. Obtenir des paroles cohérentes qui s’adaptent à la mélodie, chantées dans un style qui colle à l’ambiance, sans étapes de pipeline séparées, c’est un problème de coordination difficile que la plupart des modèles évitent encore.

Ça vaut la peine de suivre à quelle vitesse ça atterrit dans les outils créatifs. L’écart entre “démo de recherche” et “plugin dans Premiere/Logic” s’est rétréci vite ces derniers temps.

Lyria 3 sur Google DeepMind →