vision-par-ordinateur

Les algorithmes de vision par ordinateur ont parcouru un long chemin au cours de la dernière décennie. Ils ont démontré leur capacité à être aussi précis ou parfois meilleur que ce que les gens peuvent faire, lors de certaines tâches, comme la catégorisation des races d’animaux, ou l’identification d’un visage parmi des millions d’autres.

Des faiblesses dans les algorithmes 

Mais les recherches menées par des scientifiques de l’Université Brown montrent que les ordinateurs échouent complètement dans une tâche bien précise: déterminer si deux objets dans une photo sont identiques ou différents. Dans un document présenté la semaine dernière lors de la réunion annuelle de la Cognitive Science Society, l’équipe de Brown explique pourquoi les ordinateurs sont si mauvais à ce type de tâche et suggère des voies pour créer des systèmes de vision par ordinateur plus intelligents.

«Il y a beaucoup d’enthousiasme dans la communauté scientifique à propos de ce que la vision par ordinateur a pu réaliser, et je partage ce sentiment.», a déclaré Thomas Serre, professeur agrégé des sciences cognitives, linguistiques et psychologiques à l’Université Brown et auteur principal de ce document. « Mais nous pensons qu’en travaillant à comprendre les limites des systèmes de vision par ordinateur actuels, comme nous l’avons fait jusqu’à présent, nous pouvons vraiment faire évoluer ces systèmes, vers quelque chose de beaucoup plus avancés, plutôt que de simplement modifier les systèmes qui existent déjà. »

Une étude pour identifier ces faiblesses

Pour cette étude, Serre et ses collègues ont utilisé des algorithmes de vision par ordinateur de pointe pour analyser des images en noir et blanc, contenant deux ou plusieurs formes générées de manière aléatoire. Dans certains cas, les objets étaient identiques. parfois ils étaient les mêmes mais orientés différemment par rapport à l’autre, et parfois, les objets étaient complètement différents. L’ordinateur a été invité à identifier ces objets, pour voir s’il pouvait reconnaître ces différences.

Cette étude a montré que, même après des centaines de milliers d’exemples, les algorithmes n’étaient pas meilleurs que la chance de reconnaître ces différences. La question, alors, était de savoir pourquoi ces systèmes étaient si mauvais à cette tâche.

Serre et ses collègues soupçonnaient que cela avait quelque chose à voir avec l’incapacité de ces algorithmes de vision par ordinateur, à individualiser les objets. Lorsque les ordinateurs regardent une image, ils ne peuvent pas réellement dire où un objet dans l’image s’arrête et où commence l’arrière-plan, ou un autre objet. Ils voient juste un ensemble de pixels, qui ont des modèles similaires à des collections de pixels qu’ils ont appris à associer à certains objets. Cela fonctionne bien pour les problèmes d’identification ou de catégorisation, mais n’est pas efficace lorsque vous essayez de comparer deux objets.

Le problème est l’architecture des systèmes d’apprentissage

Pour montrer que c’était en effet la raison pour laquelle les algorithmes étaient si inefficaces, Serre et son équipe ont effectué des expériences qui n’obligeaient plus l’ordinateur à devoir individualiser des objets par lui-même. Au lieu de montrer à l’ordinateur deux objets dans la même image, les chercheurs ont montré à l’ordinateur les objets un à la fois, dans des images séparées. Ces expériences ont démontré que les algorithmes n’avaient aucun problème à apprendre si un objet était identique ou différent, tant qu’ils n’avaient pas à voir les deux objets dans la même image.

Selon Serre, la source du problème dans l’individuation des objets est l’architecture des systèmes d’apprentissage automatique qui alimentent les algorithmes. Les algorithmes utilisent des réseaux de neurones convolutionnels – des couches d’unités de traitement connectées qui imitent vaguement des réseaux de neurones dans le cerveau. Une différence essentielle par rapport au cerveau est que les réseaux artificiels sont exclusivement « anticipants » – ce qui signifie que l’information a un flux à sens uniquement à travers les couches du réseau. Ce n’est pas comme ça que fonctionne le système visuel chez l’homme, selon Serre.

Nous faisons des représentations mentales des objets

« Si vous regardez l’anatomie de notre propre système visuel, vous trouvez qu’il y a beaucoup de connexions récurrentes, où l’information va d’une zone visuelle supérieure à une zone visuelle inférieure, puis y retourne de façon récurrente. », a déclaré Serre. Bien que l’on ne sache pas exactement ce que font ces retours, explique Serre, il est probable qu’ils ont quelque chose à voir avec notre capacité à prêter attention à certaines parties de notre champ visuel, et à faire des représentations mentales d’objets dans nos esprits.

« On suppose que les gens regardent un objet, en construisant une représentation caractéristique qui est liée à cet objet dans leur mémoire. », a déclaré Serre. « Ensuite, ils se tournent vers un autre objet: lorsque les deux objets sont représentés dans la mémoire, notre système visuel est capable de faire des comparaisons entre ce qui est identiques ou différentes. »

Les réseaux neuronaux ne permettent pas un traitement récurrent

Serre et ses collègues émettent l’hypothèse que la raison pour laquelle les ordinateurs ne peuvent rien faire de pareil est que les réseaux neuronaux d’anticipation ne permettent pas ce type de traitement récurrent requis pour cette individuation, et cette représentation mentale des objets. Selon M. Serre, il pourrait être nécessaire de rendre la vision par ordinateur plus intelligente, et d’avoir recours à des réseaux neuronaux plus proches de la nature, comme le traitement visuel humain, si un jour nous voulons avoir des systèmes réellement plus efficaces. », conclut Serre.

Les coauteurs avec Serre de cette recherche sont Junkyung Kim et Matthew Ricci. Elle a été soutenue par la National Science Foundation (IIS-1252951, 1644760) et la DARPA (YFA N66001-14-1-4037).

Source : Brown University