Ce nouvel outil V2A de Google DeepMind pourrait être la dernière pièce du puzzle pour les films générés par l’IA

Ce nouvel outil V2A de Google DeepMind pourrait être la dernière pièce du puzzle pour les films générés par l’IA

Lorsque la première vidéo générée par l’IA a été lancée, personne n’aurait pu deviner que les outils de génération de vidéos par l’IA progresseraient autant en si peu de temps. Cependant, nous disposons aujourd’hui d’innombrables plateformes qui permettent aux utilisateurs de générer des vidéos de haute qualité et incroyablement détaillées, comme Synthesia et Dream Machine de Luma AI. Cela dit, il existe encore quelques défis qui empêchent ces outils de se généraliser.

Et le plus important est peut-être le processus de génération audio. Bien que la plupart des plateformes de génération vidéo puissent produire des vidéos de bonne qualité, il s’agit pour la plupart de vidéos silencieuses, sans aucun son. Même s’il y a de l’audio, il est généralement ajouté séparément et ne répond pas aux attentes des utilisateurs.

Par exemple, si vous visitez la page Dream Machine de Luma AI, vous pourrez voir des vidéos très impressionnantes, mais le son qui les accompagne est assez générique et de mauvaise qualité. Mais cela pourrait bien changer avec la nouvelle technologie vidéo-audio (V2A) de Google.

Cela promet d’apporter une génération audio de bonne qualité pour les vidéos au grand public, ce qui signifie que cela pourrait enfin vous permettre de produire des films générés par l’IA avec des bandes sonores et un audio appropriés, surpassant toutes les vidéos générées par l’IA qui sont actuellement produites.

Audio généré par l’IA pour

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Qu’est-ce que la recherche vidéo-audio de Google DeepMind ?

La technologie Video-to-Audio (V2A) développée par DeepMind de Google est conçue pour créer des bandes sonores pour les vidéos générées par l’IA. Cette technologie permet de générer simultanément des vidéos et de l’audio en combinant des invites en langage naturel avec des pixels vidéo pour générer des sons pour toutes les actions qui se déroulent dans la vidéo.

Cette technologie peut être associée à des modèles d’IA utilisés pour générer des vidéos, comme Veo, et peut aider à créer des dialogues et des effets sonores réalistes ainsi que des partitions dramatiques qui correspondent à la vidéo. Plus important encore, la nouvelle technologie V2A ne se limite pas aux vidéos générées à l’aide de l’IA, mais peut également être utilisée pour générer des bandes sonores pour des vidéos produites de manière traditionnelle. Ainsi, vous pouvez l’utiliser pour des films muets, des documents d’archives, etc.

La technologie V2A permet aux utilisateurs de générer des bandes sonores illimitées pour les vidéos et même d’utiliser des invites positives et négatives pour guider le processus de génération de son et obtenir facilement les sons requis. Cela permet également plus de flexibilité, ce qui vous permet d’expérimenter différentes sorties et de trouver ce qui convient le mieux à une vidéo particulière.

Extrait audio d’une méduse palpitant sous l’eau. Source : Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

Comment fonctionne la technologie V2A ?

Selon Google, la société a expérimenté des techniques de diffusion et autorégressives et a trouvé que les premières étaient les plus adaptées à la production sonore. Il en résulte des sons très réalistes et fonctionne en codant la vidéo dans un format compressé.

Après cela, le modèle de diffusion est utilisé pour séparer le bruit aléatoire de la vidéo en s’appuyant sur les invites en langage naturel et la vidéo. Les invites aident à générer un son réaliste parfaitement synchronisé avec la vidéo. Ceci est suivi par le décodage de l’audio, après quoi il est converti en une forme d’onde audio et fusionné avec la vidéo.

DeepMind de Google a fourni plus d’informations pour entraîner l’IA, grâce auxquelles les utilisateurs peuvent guider le processus de génération audio vers les sons requis et permettre à la plate-forme de produire un son de meilleure qualité. Ces informations comprenaient des transcriptions de dialogues parlés et des descriptions sonores détaillées avec des annotations générées par l’IA.

Entraînée sur ces informations, la technologie V2A peut associer différentes scènes visuelles à des événements audio spécifiques.

Fonctionnement de la technologie V2A. Source : Google

Qu’y a-t-il à l’horizon ?

La technologie V2A de DeepMind est bien plus performante que les autres solutions V2A car elle ne nécessite pas toujours une invite de texte et peut comprendre les pixels vidéo. La sortie audio n’a pas non plus besoin d’être alignée manuellement avec la vidéo. Cependant, cette technologie présente encore certaines limites, que Google souhaite surmonter grâce à des recherches plus poussées.

Par exemple, la qualité du son généré dépend de la qualité de la vidéo utilisée en entrée. Si la vidéo présente des distorsions ou des artefacts, le modèle d’IA ne parvient pas à les comprendre car ils ne sont pas inclus dans son entraînement, ce qui entraîne finalement une qualité audio réduite.

De plus, pour les vidéos contenant des paroles humaines, l’entreprise s’efforce d’améliorer la synchronisation labiale. La technologie V2A tente de générer la parole à l’aide des transcriptions d’entrée, puis de l’aligner sur les mouvements des lèvres des personnages de la vidéo. Cependant, si la vidéo ne s’appuie pas sur des transcriptions, il existe une inadéquation entre l’audio et les mouvements des lèvres.

Grâce à de meilleures capacités de génération audio, les modèles d’IA pourront générer des vidéos qui non seulement sont impressionnantes, mais qui ont également un son de qualité. Google intègre également sa technologie V2A à SynthID, qui filigrane tout le contenu généré à l’aide de l’IA. Cela peut aider à empêcher son utilisation abusive, garantissant ainsi une sécurité totale.

De plus, l’entreprise affirme qu’elle testera rigoureusement sa technologie V2A avant de la proposer au public. Jusqu’à présent, d’après ce que Google a présenté et promis pour l’avenir, cette technologie s’annonce comme une avancée majeure dans la génération audio pour les vidéos générées par l’IA.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *