acteur-film-édition-audio-fausses-vidéos
Nous vivons dans une époque, où nous pouvons prendre le visage d’un homme ou d’une femme – et lui faire dire ce que nous voulons. En effet, il est maintenant possible de prendre une vidéo d’une personne et d’ajouter, supprimer ou modifier les mots du locuteur aussi simplement que vous éditeriez du texte dans un traitement de texte. Cela est rendu possible grâce à un nouvel algorithme peut traiter l’audio et la vidéo.

Produire de fausses vidéos

C’est le travail d’une équipe collaborative de l’Université de Stanford, de l’Institut Max Planck pour l’informatique, de l’Université de Princeton et d’Adobe Research, qui affirment que dans un monde parfait, cette technologie serait utilisée pour réduire les coûts élevés de tournages lorsqu’un acteur se trompe, ou un script doit être changé.
Pour apprendre les mouvements du visage d’un orateur, l’algorithme nécessite environ 40 minutes de vidéo d’entraînement et une transcription de ce qui est dit. Ce n’est donc pas quelque chose qui peut être inséré dans un court extrait vidéo et exécuté si vous voulez de bons résultats. Ces 40 minutes de vidéo donnent à l’algorithme la possibilité de déterminer exactement le visage que le sujet forme pour chaque syllabe phonétique du script original.
À partir de là, une fois que le script a été modifié, l’algorithme peut créer un modèle 3D du visage en créant les nouvelles formes requises. Puis une technique d’apprentissage automatique appelée Neural Rendering permet de peindre le modèle 3D avec des textures photoréalistes pour lui donner un aspect pratiquement identique à celui de la réalité. Lorsque la transcription est modifiée, l’algorithme sélectionne des segments ailleurs dans la vidéo enregistrée avec un mouvement qui peut être assemblé pour produire une nouvelle vidéo. Sous leur forme brute, ces segments vidéos présenteraient des sauts et autres défauts visuels.
Pour rendre la vidéo plus naturelle, l’algorithme applique un lissage intelligent aux paramètres de mouvement et génère une version animée en 3D du résultat souhaité. Cependant, ce visage rendu est encore loin d’être réaliste. Enfin, une technique d’apprentissage automatique appelée Neural Rendering convertit le modèle numérique basse fidélité en une vidéo photoréaliste parfaitement synchronisée.

Des participants ont jugé ces vidéos « réelles » dans 60% des cas

Pour tester les capacités de leur système, les chercheurs ont effectué une série de modifications complexes, notamment l’ajout, la suppression et la modification de mots, ainsi que des traductions dans différentes langues, et ont même créé des phrases complètes comme si elles étaient réellement prononcées par le locuteur.
Les chercheurs ont testé leurs vidéos auprès de 138 participants, les modifications de l’équipe ont été jugées «réelles» dans presque 60% des cas. La qualité visuelle est telle qu’elle est très proche de l’original, mais selon les chercheurs, il reste plusieurs défauts à corriger.
« Les implications pour la post-production d’un film sont énormes « , a déclaré Ayush Tewari , une étudiante à l’Institut Max Planck pour l’informatique et deuxième auteur du journal. Il présente pour la première fois la possibilité de fixer des dialogues filmés sans nouvelle prise de vue.

Des préoccupations éthiques

Néanmoins, à l’ère des fausses vidéos synthétisées, de telles capacités soulèvent d’importantes préoccupations éthiques. Il existe des raisons très valables et justifiables de vouloir éditer une vidéo de cette manière, à savoir les dépenses et les efforts nécessaires pour réenregistrer ou réparer ces défauts d’un contenu vidéo, ou pour personnaliser le contenu vidéo audiovisuel existant selon le public. Les vidéos pédagogiques pourraient par exemple être adaptées à différentes langues ou à différents contextes culturels, ou des récits pour enfants pourraient être adaptés à différents âges.
Mais selon les chercheurs, aucune solution ne peut tout régler, les téléspectateurs doivent rester sceptiques et prudents, En outre il existe déjà de nombreuses autres manières de manipuler une vidéo qui sont beaucoup plus faciles à exécuter. Le plus important est peut-être de sensibiliser le public à la manipulation vidéo, afin que les gens soient mieux équipés pour interroger et évaluer la véracité d’un contenu synthétique.
Cette recherche a été prépubliée dans arXiv
La vidéo ci-dessous montre à quel point il est facile d’éditer une vidéo à l’aide de ce nouvel algorithme.

Source : Stanford University
Crédit photo : Pixabay