L’IA transforme l’activité cérébrale en discours

implant-signaux

Pour beaucoup de gens paralysés et incapables de parler, les signaux de ce qu’ils aimeraient dire se cachent dans leur cerveau. Personne n’a été capable de déchiffrer ces signaux directement, mais trois équipes de recherche ont récemment progressé en convertissant des données générées par des électrodes placées chirurgicalement sur le cerveau en langage généré par ordinateur.

Convertir les signaux du cerveau en mots

À l’aide de modèles informatiques connus sous le nom de réseaux de neurones, ils ont reconstruit des mots et des phrases qui, dans certains cas, étaient intelligibles pour les auditeurs humains. Aucun des efforts décrits dans les articles de ces derniers mois sur le serveur de préimpression bioRxiv n’a réussi à recréer un discours que les gens avaient simplement imaginé.

Au lieu de cela, les chercheurs ont surveillé des parties du cerveau pendant que les gens lisaient à voix haute, parlaient en silence ou écoutaient des enregistrements. Mais montrer que le discours reconstruit est compréhensible est «certainement excitant», déclare Stephanie Martin, ingénieure en neurones à l’Université de Genève en Suisse, qui n’a pas participé aux nouveaux projets.

Les personnes qui ont perdu la capacité de parler après un accident cérébro-vasculaire ou une autre maladie peuvent utiliser leurs yeux ou faire d’autres petits mouvements pour contrôler un curseur ou sélectionner des lettres sur un écran. Le physicien et cosmologiste Stephen Hawking tendait la joue pour déclencher un interrupteur monté sur ses lunettes.

Mais si une interface cerveau-ordinateur pouvait recréer directement leurs discours, cela pourrait faciliter la vie de ces personnes: par exemple le contrôle du tonus et de la flexion, ou la capacité d’intervenir dans une conversation rapidement.

Un mappage difficile à faire

Cependant les obstacles sont très élevés. « Nous essayons de définir le modèle de neurones qui s’activent et se désactivent à différents moments et en déduire le son de la parole », a déclaré Nima Mesgarani, informaticienne à l’université de Columbia. « Le mappage de l’un à l’autre n’est pas très simple. »

La façon dont ces signaux traduisent les sons varie d’une personne à l’autre. Par conséquent, les modèles informatiques doivent être « formés » pour chaque personne, et les modèles fonctionnent mieux avec des données extrêmement précises, ce qui nécessite une ouverture du crâne pour atteindre directement le cerveau.

Les chercheurs ne peuvent réaliser un tel enregistrement invasif que dans de rares cas. L’un d’eux est lors du retrait d’une tumeur cérébrale, lorsque des lectures électriques du cerveau exposé aident les chirurgiens à localiser et à limiter les dommages des zones-clés de la parole et de la motricité.

Un autre cas est lorsqu’une personne atteinte d’épilepsie reçoit des électrodes pendant plusieurs jours pour déterminer l’origine des crises avant le traitement chirurgical. « Nous avons 20 minutes maximum, peut-être 30 minutes », a déclaré Martin. « Nous sommes vraiment très limités. »

Des réseaux de neurones pour traiter des modèles complexes 

Les groupes à la base des nouveaux documents ont exploité des données en alimentant des informations dans des réseaux de neurones, qui traitent des modèles complexes en faisant passer des informations à travers des couches de « nœuds » informatiques. Les réseaux apprennent en ajustant les connexions entre les nœuds. Au cours des expériences, les réseaux ont été exposés à des enregistrements de discours qu’une personne produisait ou entendaient et à converti ces données en activité cérébrale.

L’équipe de Mesgarani s’est appuyée sur les données de cinq personnes atteintes d’épilepsie. Leur réseau a analysé les enregistrements du cortex auditif actif à la fois lors de la parole et de l’écoute, ces patients ayant entendu des enregistrements d’histoires et des personnes nommant des chiffres de zéro à neuf. L’ordinateur a ensuite reconstruit les nombres parlés à partir de données neuronales uniquement; quand l’ordinateur « disait » les chiffres, un groupe d’auditeurs les nommait avec une précision de 75%.

Une autre équipe, dirigée par les neuroscientifiques Miguel Angrick de l’Université de Brême en Allemagne et Christian Herff de l’Université de Maastricht aux Pays-Bas, a utilisé les données de six personnes ayant subi une opération pour une tumeur au cerveau. Un microphone a capturé leurs voix alors qu’ils lisaient des mots à voix haute.

Pendant ce temps, des électrodes ont enregistré les zones de planification de la parole et des zones motrices du cerveau, qui envoient des commandes au conduit vocal pour articuler des mots. Le réseau a mappé les lectures des électrodes sur les enregistrements audio, puis a reconstitué les mots à partir de données cérébrales. Selon un système de notation informatisé, environ 40% des mots générés par ordinateur étaient compréhensibles.

Enfin, le neurochirurgien Edward Chang et son équipe de l’Université de Californie à San Francisco ont reconstitué des phrases entières à partir d’activités cérébrales capturées dans des zones de la parole et de la motricité pendant que trois patients atteints d’épilepsie lisaient à haute voix.

Des phrases correctement identifiées plus de 80% du temps

Lors d’un test en ligne, 166 personnes ont entendu l’une des phrases et ont dû la sélectionner parmi 10 choix écrits. Certaines phrases ont été correctement identifiées plus de 80% du temps. Les chercheurs ont également poussé le modèle plus loin: ils l’ont utilisé pour recréer des phrases à partir de données enregistrées pendant que les gens prononçaient des mots en silence. C’est un résultat important, explique Herff – « un pas de plus vers la prothèse que nous avons tous rêvé. ».

Cependant, « ce que nous attendons vraiment, c’est comment ces méthodes vont fonctionner quand les patients ne pourront pas parler », déclare Stephanie Riès, neuroscientifique à la San Francisco State University, qui étudie la production linguistique. Les signaux du cerveau lorsqu’une personne « parle » ou « entend » sa voix dans sa tête ne sont pas identiques aux signaux de la parole ou de l’audition. Sans un son externe correspondant à l’activité cérébrale, il peut être difficile pour un ordinateur de traduire ces signaux.

Un discours « imaginé » est plus difficile à convertir en mots

Pour décoder un discours « imaginé », il faudra « un énorme bond en avant » « , déclare Gerwin Schalk, ingénieur en neuroingénierie au Centre national de neurotechnologies adaptatives du département de la santé de l’État de New York à Albany. « On ne sait vraiment pas comment faire ça. »

Selon Herff, une des solutions pourrait consister à informer l’utilisateur de l’interface cerveau-ordinateur: s’il peut entendre l’interprétation de la parole de l’ordinateur en temps réel, il pourra peut-être ajuster ses pensées pour obtenir les résultats souhaités.

Source : Science

https://farm8.staticflickr.com/7823/32712680848_cc3d146afb_o.jpg