créer_film_texte_algorithme_découverte

Les scénaristes qui refusent les gros budgets et les formidables ressources des grands studios de cinéma pourraient bientôt avoir une autre option, grâce à un nouvel algorithme permettant de générer une vidéo simplement en « lisant » un script. Ces nouveaux films sont loin d’être dignes d’un Oscar, mais une technique similaire pourrait un jour trouver d’autres utilisations, par exemple en aidant un témoin à reconstruire un accident de voiture ou un crime.

Créer des films à partir d’un texte

L’intelligence artificielle (IA) est beaucoup mieux performant à identifier du contenu des images et le reconnaître. C’est d’ailleurs un système utilisé par plusieurs smartphones, lesquels peuvent identifier des images en les photographiant. Les algorithmes dits «génératifs» vont dans l’autre sens, produisant des images à partir d’un texte, mais sans qu’il y ait d’images. Quelques-uns peuvent même prendre un seul film et prédire la prochaine série d’images. Lorsque nous mettons tout cela ensemble, cet algorithme créer une image à partir d’un texte et la faire bouger de façon réaliste conformément au texte.

« Pour autant que je sache, c’est le premier travail de « text-to-video » qui donne de si bons résultats. Ils ne sont pas parfaits, mais au moins ils commencent à ressembler à de vraies vidéos », explique Tinne Tuytelaars, informaticienne à la Katholieke Universiteit Leuven en Belgique, qui a fait ses propres recherches sur la prédiction vidéo. « C’est vraiment un bon travail. »

Le nouvel algorithme est une forme d’apprentissage automatique, ce qui signifie qu’il nécessite une formation. Plus précisément, c’est un réseau de neurones, ou une série de couches de petits éléments informatiques qui traitent les données d’une manière qui rappelle les neurones du cerveau. Pendant la formation, le logiciel évalue ses performances après chaque tentative, la rétroaction circule à travers les millions de connexions pour affiner les futurs calculs.

Des étapes

Ce réseau fonctionne en deux étapes. La première utilise le texte pour créer un « fond » de la vidéo, qui est essentiellement une image floue de l’arrière-plan où l’action principale a lieu. La deuxième étape prend à la fois l’essentiel du texte et produit une courte vidéo. Pendant la formation, un deuxième réseau agit comme un «discriminateur». C’est-à-dire qu’au fur et à mesure il s’améliore, et devient un critique plus sévère, et ses commentaires fixent une barre plus haute pour le réseau générateur.

Les chercheurs ont formé l’algorithme sur 10 types de scènes, y compris «jouer au golf sur herbe», et «surfer sur la mer», qu’il a ensuite reproduite. De plus, ce réseau de neurones pourrait aussi générer des vidéos pour des actions absurdes, comme «naviguer sur la neige» et «jouer au golf à la piscine», a rapporté l’équipe ce mois-ci lors d’une réunion. de l’Association pour l’avancement de l’intelligence artificielle à la Nouvelle-Orléans, en Louisiane.

« Leurs méthodes sont très intéressantes. », explique Hamed Pirsiavash, informaticien à l’Université du Maryland dans le comté de Baltimore, qui a réalisé des travaux de prédiction vidéo. « C’est un problème très difficile. Donc, je suis heureux que ces gars aient bien progressé dans cette voie très prometteuse à long terme.  »

Pour le moment les films sont peu précis

Actuellement, les vidéos n’ont que 32 images et leur durée est d’environ 1 seconde et ont la taille d’un timbre-poste, de 64 par 64 pixels. Selon Yitong Li, informaticien à l’Université Duke de Durham en Caroline du Nord;  » tout ce qui est plus gros réduit la précision. Parce que les gens apparaissent souvent comme des figures déformées, une prochaine étape sera d’utiliser des modèles squelettiques humains pour améliorer le mouvement », explique-il.

Tuytelaars voit également des applications au-delà d’Hollywood. Il pourrait par exemple générer des données d’entraînement pour d’autres algorithmes d’apprentissage automatique, ou aider une voiture autonome à prédire où une moto ira, nous explique Pirsiavash. En fait cet algorithme génératif, pourrait être utilisé de plusieurs façons. Si cette technologie s’améliore dans les prochaines années, nous pourrions assister à un bouleversement des habitudes dans plusieurs domaines où les textes (les scripts) sont très importants.

crédit photo : Jon Flobrant

[via science]