V2A par DeepMind : Quand l’IA met le son dans l’image

Le laboratoire de a réalisé une avancée significative dans le domaine de l'intelligence artificielle générative. Ses chercheurs viennent de mettre au point un système appelé V2A, capable de produire des bandes sonores, des effets sonores et des dialogues pour accompagner des vidéos.

Jusqu'à présent, les modèles d'IA existants parvenaient à générer des vidéos, mais restaient muets, incapables de créer le moindre son pour les accompagner. DeepMind a réussi à combler cette lacune grâce à son système V2A, pour « video-to-audio« . Cette avancée technologique pourrait bien révolutionner le monde de la production audiovisuelle.

Comment fonctionne le système V2A ?

Le système V2A repose sur un modèle d'IA entraîné à partir d'un vaste ensemble de données composé de sons, de transcriptions de dialogues et de séquences vidéo. Un entraînement très poussé qui lui permet d'analyser les pixels bruts d'une vidéo et de générer un accompagnement sonore parfaitement synchronisé.

Que ce soit une bande sonore musicale, des effets sonores ou encore des dialogues, tout peut être créé par cette IA pour s'accorder à un contenu visuel. Et le plus étonnant est que cette génération audio peut s'effectuer sans aucune description textuelle préalable.

Limitations actuelles

Si cette technologie ouvre des perspectives prometteuses, notamment dans le domaine de la préservation du patrimoine audiovisuel, sa qualité n'est pas encore parfaite. DeepMind reconnaît que le résultat sonore généré par son IA manque pour l'instant de naturel et de réalisme.

Le système peine notamment à traiter les vidéos dégradées ou comportant des artefacts. Des améliorations sont donc encore nécessaires avant une éventuelle diffusion à grande échelle. De fait, DeepMind n'envisage pas de rendre V2A accessible au grand public pour l'instant.

L'entreprise souhaite par ailleurs mener des évaluations approfondies sur la sécurité et les impacts éthiques potentiels de son puissant système. Celui-ci pourrait être aisément détourné pour produire du contenu parodique, diffamatoire ou portant atteinte aux droits d'auteur sans l'accord des ayants droit. Des consultations sont en cours auprès de professionnels des médias audiovisuels.

Emplois audiovisuels menacés

Au-delà des défis techniques, V2A et les technologies similaires soulèvent des interrogations sur leur influence future dans l'industrie cinématographique et audiovisuelle. Si ces outils venaient à se généraliser, ils pourraient potentiellement menacer de nombreux métiers créatifs liés à la production audiovisuelle.

Les compositeurs de musiques de films, les créateurs de bruitages et d'effets sonores ou encore les acteurs de doublage pourraient voir leurs services rendus largement superflus par des systèmes d'IA capables de générer automatiquement ces éléments audio. Un risque de déqualification et de perte d'emplois massifs planerait alors sur ces professions.

Face à ces menaces, l'industrie devra se préparer et réfléchir à un cadre réglementaire et juridique encadrant l'usage de ces technologies. Des mesures de protection de l'emploi et de la propriété intellectuelle devront être mises en place.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *