AI-jeux-video-apprendre-à-travailler-en-équipe
Les joueurs humains savent à quel point il est difficile de gagner une nouvelle version du jeu par ordinateur Quake : dans une arène semblable à un labyrinthe, ils doivent travailler avec d’autres joueurs pour capturer des drapeaux flottants, tout en évitant des tirs meurtriers.

L’IA apprend à travailler en équipe

Désormais, pour la première fois, l’intelligence artificielle (IA) a maîtrisé ce travail d’équipe dans un jeu vidéo complexe à la première personne, en coordonnant ses actions avec ses coéquipiers humains et informatiques pour battre régulièrement ses adversaires.
«L’étendue des expériences est remarquable», déclare Michael Littman, expert en intelligence artificielle à la Brown University. Amener les agents d’intelligence artificielle à travailler ensemble est incroyablement difficile, dit-il.
Bien que l’intelligence artificielle puisse conduire des voitures et vaincre les plus grands joueurs d’échecs du monde actuellement, les chercheurs ont du mal à maîtriser le travail d’équipe. La pratique peut sembler intuitive pour nous, mais prévoir le comportement des autres – un élément essentiel du travail en équipe – ajoute un niveau de complexité et d’incertitude sans précédent pour l’IA.

Dans cette nouvelle étude, des chercheurs ont demandé à des robots dotés d’une IA d’apprendre à travailler en équipe. Leur salle de classe était une version simplifiée du jeu de tir à la première personne de 1999, Quake III Arena, que les joueurs qui utilisent la PlayStation 2 connaissent bien. Ce jeu implique deux équipes qui naviguent sur une carte 3D pour récupérer un drapeau de la base de leur adversaire et le prendre pour le ramener à leur base. L’équipe avec le plus de captures de drapeaux après 5 minutes gagne. Les joueurs tirent également un laser pour marquer les ennemis et les renvoient à leur base.

30 robots qui s’opposent dans une version simplifiée de Quake III Arena 

Pour former l’IA à travailler en équipe, les scientifiques ont créé 30 robots différents et les ont opposés lors d’une série de matchs sur des cartes générées aléatoirement. Les robots formés utilisaient des algorithmes inspirés du cerveau, appelés réseaux de neurones, qui tirent des enseignements des données en modifiant la force des connexions entre neurones artificiels.
Les seules données dont les robots ont dû apprendre sont la perspective visuelle à la première personne de leur personnage, attribués pour des opérations telles que la collecte de drapeaux ou le marquage de leurs adversaires.
Au départ, les robots ont agi de manière aléatoire. Mais lorsque leurs actions ont marqué des points, les liens qui étaient reliés au comportement ont été renforcés grâce à un processus appelé apprentissage par renforcement. Ce programme de formation a également ciblé les robots qui avaient tendance à perdre et les a remplacés par des copies mutées plus performants, inspirées par la manière dont la variation génétique et la sélection naturelle aident les animaux à évoluer.

Les chercheurs ont obtenu le meilleur robot nommé « For The Win »

Après 450 000 parties, les chercheurs ont obtenu le meilleur robot qu’ils ont nommé « For The Win » (FTW). Ils l’ont ensuite testé lors de divers matches avec un miroir FTW, un robot FTW manquant d’un élément d’apprentissage crucial, des robots intégrés au jeu et des humains. Les équipes des robots FTW ont systématiquement surperformé tous les autres groupes, bien que les humains jumelés à des robots FTW aient pu les battre 5% du temps, rapportent-ils aujourd’hui dans Science.
Les robots FTW ont appris à jouer en toute transparence avec les humains et les machines. Ils ont même développé des stratégies de coopération, explique le coresponsable de cette étude, Max Jaderberg, chercheur en intelligence artificielle chez DeepMind, une entreprise de Google, à Londres. Ces stratégies impliquaient de suivre les coéquipiers afin de dépasser le nombre d’opposants lors de combats ultérieurs et de flâner près de la base ennemie lorsque leur coéquipier avait le drapeau pour le saisir immédiatement quand il réapparaissait.

Les robots ont inventé une stratégie complètement nouvelle

Dans un test, les robots ont inventé une stratégie complètement nouvelle, exploitant un bug qui permettait aux coéquipiers de se donner une vitesse supplémentaire en leur tirant une balle dans le dos. «Ce qui était étonnant pendant le développement de ce projet, c’était de voir émerger certains de ces comportements de haut niveau», a déclaré Jaderberg. « Ce sont des choses que nous pouvons comprendre en tant qu’acteurs humains. »
Cette approche est encore loin de fonctionner dans le monde réel, ajoute Jaderberg. Mais cette avancée est bonne pour plus que les jeux sur ordinateur. Si L’IA peut apprendre à travailler en équipe, elle peut tout faire; conduire des voitures autonomes qui évitent les accidents en se coordonnant entre elles, aux assistants en chirurgie robotique qui aident les médecins pendant les opérations.

La même approche pourrait ne pas fonctionner avec d’autres tâches

Néanmoins, Littman met en garde contre l’extrapolation excessive d’une simulation informatique relativement simple. « Il se pourrait que les détails de ce jeu ne nécessitent qu’une part très étroite de ce que nous considérons comme du travail d’équipe », dit-il. Et cela, dit-il, signifie qu’il n’y a aucune garantie que la même approche enseignerait à une IA à travailler en équipe sur d’autres tâches.
Source : Science
Crédit photo : Nikita Kachanovsky