utiliser-le-logiciel-Deepfake-pour-traduire-une-védio-dans-une-autre-langue
De fausses vidéos créées par l’intelligence artificielle pourraient éventuellement nous aider à communiquer avec des personnes dans d’autres langues. En effet, Prajwal Renukanand, de l’Institut international de technologie de l’information à Hyderabad, en Inde, et ses collègues ont développé un logiciel qui traduit automatiquement une vidéo. Il fait également correspondre les mouvements de leurs lèvres avec les mots de la langue traduite.

Un logiciel pour traduire des vidéos

Le logiciel Deepfake fonctionne en combinant plusieurs algorithmes. Sur une vidéo d’une personne qui parle, une IA reconnaît les mots prononcés et une autre traduit les mots de la langue d’origine dans la langue désirée.
Une troisième IA de synthèse vocale génère ensuite les sons, tandis qu’un algorithme final anime les lèvres et la bouche pour faire correspondre les mouvements du visage aux mots prononcés dans la nouvelle langue.
L’équipe a développé l’algorithme de mouvement des lèvres, appelé LipGAN, et a utilisé des IA préexistantes pour les autres composants. Ce logiciel a été formé sur 29 heures de vidéo de centaines d’anglophones. Pour une vidéo de 10 secondes, Renukanand estime qu’il faut environ une minute de traitement pour générer des séquences traduites.

Selon l’algorithme de synthèse vocale utilisé, le discours traduit peut être soit une version générée de la propre voix du locuteur, soit une voix parlée plus générique. La technologie Deepfake fonctionne aussi bien sur des images fixes que sur des vidéos animées. « Quel que soit le visage que nous générons, il doit pouvoir être reproduit dans la vidéo », explique M. Renukanand.

Il pourrait être utilisé pour des vidéoconférences

Il pourrait être utile pour traduire des émissions de télévision ou des films pour plusieurs sortes de publics, dit M. Renukanand. L’équipe pense également que cette technologie pourrait être utilisée pour des échanges lors d’une vidéoconférence dans lesquels deux interlocuteurs ne parlent pas la même langue, bien que ce logiciel ne soit pas pour l’instant assez rapide pour traduire les conversations en temps réel, dit-il.
Par exemple, si l’un des interlocuteurs ne parle que l’anglais et l’autre le chinois, une chose dite en anglais par le premier interlocuteur serait traduite en temps réel en chinois. « La synchronisation des lèvres en temps réel est facile, mais la traduction en temps réel est plus difficile », explique M. Renukanand.
Source : New Scientist
Crédit photo : Pixabay