machine-émotions-humaines

Alors que les robots, deviennent de plus en plus intelligents, il a un domaine, qu’ils ne maîtrisent pas encore très bien; c’est la reconnaissance des émotions humaines. Les ordinateurs et robots, ne parviennent pas à identifier facilement les émotions humaines. Mais cela pourrait changer, des chercheurs du MIT Media Lab ont développé un modèle d’apprentissage automatique qui rapproche les ordinateurs de l’interprétation de nos émotions aussi naturellement que les humains.

Des robots pouvant reconnaître les émotions humaines

Dans le domaine grandissant de «l’informatique affective», des robots et des ordinateurs sont en cours de développement pour analyser les expressions faciales, interpréter nos émotions et réagir en conséquence. Les applications comprennent, par exemple, la surveillance de la santé et du bien-être d’une personne, l’évaluation de l’intérêt des élèves pour les salles de classe, le diagnostic des signes de certaines maladies et le développement de robots compagnons.

Cependant il y a un défi difficile à surmonter; c’est que les gens expriment des émotions très différemment, en fonction de nombreux facteurs. Des différences qui peuvent être observées entre les cultures, les sexes et les groupes d’âge. Mais d’autres différences sont encore plus subtiles: l’heure de la journée, le sommeil et le niveau de familiarité avec un interlocuteur; cela entraîne des variations subtiles dans la façon dont les émotions seront exprimées.

Les cerveaux humains comprennent instinctivement ces variations, mais les machines n’y arrivent pas aussi facilement. Des techniques d’apprentissage en profondeur ont été développées au cours des dernières années pour aider à saisir ces subtilités, mais elles ne sont toujours pas aussi précises ou adaptables pour différentes populations.

Les chercheurs de Media Lab ont mis au point un modèle d’apprentissage automatique qui surpasse les systèmes traditionnels en capturant ces petites variations d’expression faciale, pour mieux évaluer l’humeur, tout en s’entraînant sur des milliers d’images de visages. De plus, en utilisant un peu de données d’entraînement supplémentaires, ce modèle peut être adapté à un nouveau groupe de personnes, avec la même efficacité. L’objectif est d’améliorer les technologies informatiques affectives existantes.

« C’est une manière discrète de surveiller nos humeurs », explique Oggi Rudovic, chercheur au Media Lab et coauteur d’un article décrivant ce modèle, qui a été présenté la semaine dernière à la Conférence sur l’apprentissage automatique et l’exploration de données. « Si vous voulez des robots avec une intelligence sociale, vous devez les rendre intelligemment et naturellement capables de répondre à nos humeurs et nos émotions, comme les humains. »

Des « modèles experts » personnalisés

Les modèles traditionnels en informatique affective utilisent un concept de «taille unique». Ils s’entraînent sur un ensemble d’images représentant différentes expressions faciales, optimisant ainsi les caractéristiques émotionnelles – telles que la façon dont une lèvre se recroqueville en souriant – et cartographiant ces optimisations sur un ensemble de nouvelles images.

Les chercheurs du MIT ont fait le contraire, en combinant une technique, appelée «mélange d’experts» (MoE), avec des techniques de personnalisation de modèles, qui ont aidé à extraire plus de données d’expression faciale des individus. C’est la première fois que ces deux techniques ont été combinées pour l’informatique affective, explique Rudovic.

Dans les MoE, un certain nombre de modèles de réseaux neuronaux, appelés «experts», sont formés pour se spécialiser dans une tâche de traitement distincte et produire une sortie intelligible. Les chercheurs ont également incorporé un «réseau de déclenchement», qui calcule les probabilités dont le modèle expert, détectera le mieux les humeurs des sujets.

Pour leur modèle, les chercheurs ont personnalisé les MoE en associant chaque modèle expert à l’un des 18 enregistrements vidéo de la base de données RECOLA, une base de données publique de personnes conversant sur une plateforme de chat vidéo, conçue pour les applications informatiques affectives. Ils ont formé ce modèle en utilisant neuf sujets et les ont évalués, avec toutes les vidéos décomposées en images individuelles.

Chaque modèle expert, et le réseau de synchronisation, a suivi les expressions faciales de chaque individu, à l’aide d’un réseau résiduel (« ResNet »), un réseau de neurones utilisé pour la classification des objets. Ce faisant, le modèle a noté chaque image en fonction du niveau de valence (agréable ou désagréable) et de l’excitation – des paramètres couramment utilisés pour coder différents états émotionnels. Séparément, six modèles experts humains ont été étiquetés pour chaque cadre, pour la valence et l’excitation, sur une échelle de -1 (niveaux faibles) à 1 (niveaux élevés), que le modèle a également utilisé pour se former.

Un modèle qui surclasse les modèles traditionnels 

Les chercheurs ont ensuite effectué une personnalisation du modèle, où ils ont alimenté les données de modèles formés à partir de certaines images des vidéos des sujets, puis ont testé ce modèle sur toutes les images de ces vidéos que le modèle n’avait pas vues. Les résultats ont montré qu’avec seulement 5 à 10 % des données, le modèle surclassait largement les modèles traditionnels – ce qui signifiait que la valence et l’excitation des images étaient beaucoup plus proches des interprétations des modèles experts humains.

Cela démontre le potentiel des modèles à s’adapter d’une population à l’autre, ou d’un individu à l’autre, avec très peu de données, explique Rudovic. « Lorsque vous avez une nouvelle population, vous devez avoir un moyen de rendre compte de la répartition des données des variations faciales.

Les données actuellement disponibles pour une telle recherche sur l’informatique affective ne sont pas très diverses en ce qui concerne les couleurs de la peau, de sorte que les données d’apprentissage des chercheurs étaient limitées. Mais lorsque ces données deviennent disponibles, le modèle peut être formé pour une utilisation sur des populations plus diverses. La prochaine étape, explique Feffer, est de former ce modèle sur « un ensemble de données beaucoup plus grand, avec des cultures plus diverses. »

De meilleures interactions machines-humains

Un autre objectif est de former ce modèle pour aider les ordinateurs et les robots à apprendre automatiquement à partir de petites quantités de données changeantes, afin de détecter plus naturellement comment nous nous sentons et ainsi mieux servir les besoins humains, affirment les chercheurs.

Il pourrait, par exemple, fonctionner en arrière-plan d’un ordinateur ou d’un appareil mobile pour suivre les conversations vidéo d’un utilisateur, et apprendre les subtils changements d’expression faciale dans différents contextes. «Vous pouvez créer des applications ou des sites Web intelligents qui pourraient indiquer comment les gens se ressentent et recommander des façons de se comporter avec le stress ou la douleur et d’autres facteurs qui ont une incidence négative sur leur vie», explique M. Feffer.

Cela pourrait également être utile pour surveiller la dépression ou la démence, car les expressions faciales des gens ont tendance à changer subtilement en raison de ces conditions. «Si nous sommes en mesure de surveiller passivement les expressions faciales, donc nous pourrions au fil du temps personnaliser ces modèles aux utilisateurs et surveiller les changements, afin de les utiliser pour des indicateurs de bien-être et de santé.  »

Une application prometteuse, explique Rudovic, est celle des interactions humaines-robots, comme la robotique personnelle ou les robots sont utilisés à des fins éducatives, où les robots doivent s’adapter, pour évaluer les états émotionnels de nombreuses personnes. Une autre version pourrait être utilisée pour aider les robots à mieux interpréter les humeurs des enfants autistes.

En résumé, cette recherche démontre que les robots, pourront un jour comprendre nos émotions en s’adaptant aux subtiles variations – exactement comme nous le faisons instinctivement à tous les jours, lorsque nous rencontrons des gens que nous ne connaissons pas.

Source : MIT