IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Des chercheurs parviennent à traduire automatiquement les signaux du langage émis par le cerveau en texte avec un framework encodeur-décodeur
Pour un taux d'erreur pouvant descendre jusqu'à 3 %

Le , par Olivier Famien

609PARTAGES

12  0 
À mesure que l’intelligence artificielle se développe, le champ des possibilités se fait encore plus vaste. Depuis quelques jours, un groupe de chercheurs (Joseph G. Makin, David A. Moses et Edward F. Chang) de l’Université de Californie, à San Francisco, aux États-Unis, a annoncé avoir réussi à capter les signaux du langage émis par le cerveau afin de les traduire en texte en utilisant l’intelligence artificielle (IA). Si de nombreux travaux similaires ont déjà été réalisés dans ce domaine, il faut préciser que les résultats obtenus étaient plutôt limités. En effet, dans le meilleur des cas, le décodage des signaux ne couvrait que quelques syllabes (4 à 8), ou 9 dans le cas des vocabulaires de taille moyenne (environ 100 mots) pour un taux de précision d’environ 40 %. Pour ce qui concerne les chercheurs de l’Université de Californie, ils déclarent être parvenus à transcrire en anglais les signaux du langage émis par le cerveau à des vitesses de la parole naturelle avec un taux d’erreur pouvant descendre jusqu’à 3 %.

Pour atteindre de tels résultats, les chercheurs sont partis de l’hypothèse selon laquelle leur objectif n’était pas très différent de ce que les algorithmes de traduction automatique moderne font, c’est-à-dire décoder une seule phrase à la fois en utilisant du texte. Sur cette base, il serait donc possible d’utiliser des algorithmes d’apprentissage de traduction automatique avec peu d’altérations pour le décodage de la parole. Pour tester cette hypothèse, les chercheurs ont utilisé l’API Python de Tensorflow pour concevoir le framework d’un réseau neuronal. Puis, ils ont formé une architecture « ;séquence à séquence ;» sur les signaux neuronaux obtenus à partir de l’électrocorticogramme (ECoG) pendant la production de la parole et les transcriptions des phrases parlées correspondantes. La différence la plus importante qui subsiste entre cette tâche et la traduction automatique est que les ensembles de données pour l’apprentissage avec les algorithmes de traduction automatique peuvent contenir plus d’un million de phrases, tandis qu’un seul participant pour leurs tests ne fournit généralement pas plus de quelques milliers de données.

Pour leurs tests, les chercheurs se sont tournés vers 4 femmes atteintes d’épilepsie alors qu’elles suivaient un traitement au Centre médical de l’Université de Californie à San Francisco (UCSF). Des matrices d’électrocorticogramme ont été implantées chirurgicalement sur la surface corticale de chaque participante pour localiser les foyers de leurs crises. Lors de l’étude, il a été demandé à chaque participante de répéter à plusieurs reprises un ensemble de 30 à 50 phrases composées de 250 mots différents. Seuls les ensembles de phrases ayant été répétées au moins trois fois ont été pris en compte. Et pendant de la lecture, les signaux neuronaux générés par le cerveau des participants ont été enregistrés avec 120 à 250 électrodes couvrant la région périsylvienne.

À chaque électrode, l’enveloppe de la composante haute fréquence (70-150 Hz, « ;high-γ ;») du signal ECoG, c’est-à-dire l’amplitude du signal analytique dans cette plage, a été extraite à environ 200 Hz, et les séquences résultantes — chacune correspondant à une seule phrase — ont été passées en tant que données d’entrée à un réseau de neurones artificiel de type « ;encodeur-décodeur ;». Le réseau neuronal a ensuite analysé les signaux reçus en utilisant des filtres convultifs temporaux et les a classés en sous-échantillons. Chaque filtre mappe les données de fenêtre de 12 échantillons sur les électrodes à des échantillons uniques d’une séquence de caractéristiques (mis en évidence dans le carré vert sur les séquences de caractéristiques bleues ci-dessous).


Après la première séquence de caractéristiques produites, la séquence de caractéristiques sera encore traitée pour former 12 échantillons d’entrées afin de produire l’échantillon suivant de la séquence de caractéristiques. Ce processus va être effectué sur les signaux neuronaux reçus afin de produire une centaine de séquences de caractéristiques. Une fois l’ensemble des signaux convertis en séquences de caractéristiques, ces dernières seront transmises au réseau de neurones récurrents (encodeur RNN) qui apprend à les regrouper en un seul état caché. Enfin, l’état caché de l’encodeur final initialise le réseau de neurones récurrents (décodeur RNN), qui apprend à prédire le mot suivant ou la fin de la séquence, à mesure que la personne lit les phrases. À chaque étape de la séquence de sortie, le décodeur prend en entrée, en plus de son propre état caché précédent, soit le précédent mot dans la phrase réelle prononcée par le participant (pendant le stade de formation du modèle), ou son propre mot prédit à la précédente étape (pendant la phase de test).

Après avoir entrainé le réseau neuronal à prédire les mots en s’appuyant sur les signaux reçus, les chercheurs ont analysé les résultats de l’IA et ont découvert que pour 100 mots, le taux d’erreur du décodeur de signaux de la parole fut de 60 %. Les chercheurs ont poursuivi les tests pour mieux entrainer l’IA. Par exemple, l’IA a été formée sur les données de deux utilisateurs, ce qui a amélioré ses performances pour chacun d’eux. De même, l’un des sujets a prononcé un ensemble supplémentaire de phrases qui n’ont pas été utilisées dans le test. Cela a également entrainé une baisse de 30 % du taux d’erreur. Après avoir appliqué toutes ces actions, les chercheurs sont parvenus à atteindre un taux d’erreur de 3 % pour 50 phrases, environ 250 mots.

Bien que les données et les tests étaient très encadrés, cela ouvre tout de même un nouveau champ d’action pour d’autres possibilités. Si ces tests sont perfectionnés au point d’arriver à des résultats fiables sur un très large échantillon, les personnes atteintes de sclérose latérale amyotrophique ou de maladies similaires comme Stephen Hawking pourraient utiliser ce système pour améliorer leur quotidien lors de l’usage des appareils comme les ordinateurs, les téléphones, les TV connectés, etc. Mais avant cela, il faudrait d’abord trouver le moyen de permettre à l’IA d’analyser les signaux de la parole sans que l’on soit obligé d’insérer des implants dans le cerveau des sujets.

Source : Nature (1, 2), GitHub

Et vous ?

Que pensez-vous des résultats de cette étude ;? Sont-ils faibles ;?

Vu les implants à insérer dans le cerveau des utilisateurs, pensez-vous que cette technologie pourra être utilisée par le grand public dans un futur proche ;?

Voir aussi

Des scientifiques ont connecté le cerveau de 3 personnes pour partager leurs pensées et ceci pourrait être élargi à plus de personnes et via le Web
Neuralink, le projet d’Elon Musk pour qu’un cerveau humain interagisse directement avec un PC, et l’Homme fusionne avec l’IA, aberration ou fiction ;?
Facebook travaille sur une interface cerveau-machine pour lire les pensées et utiliser des applications de messagerie et de réalité augmentée
Un réseau neuronal reconstruit les pensées humaines à partir des ondes cérébrales en temps réel, ce qui améliorera les dispositifs de rééducation post-AVC, selon une nouvelle recherche

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de walfrat
Membre émérite https://www.developpez.com
Le 01/04/2020 à 13:04
Disons que 3% d'erreur c'est suffisant pour changer LE mot qui fait prendre un tout autre sens à une phrase (T9 completion, des souvenirs ? )

Sur un point scientifique, il est clair qu'on peut tout juste parler d'ébauche, cependant c'est une performance très impressionnante.
1  0 
Avatar de xavier-Pierre
Membre éclairé https://www.developpez.com
Le 01/04/2020 à 7:33
c'est un poisson d'avril crée par l'IA?
0  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/04/2020 à 11:09
Faut croire que non, l'article de nature date du 30 mars: "Published: 30 March 2020"

Impressionnant en tout cas.
0  0 
Avatar de Matthieu Vergne
Expert éminent https://www.developpez.com
Le 05/04/2020 à 19:15
Effectivement, c'est un rapport technique. Il ne s'agit donc pas d'un article revue par les pairs. Les résultats peuvent cependant être utilisés pour d'autres raisons, comme motiver des nouveaux financements ou des collaborations, de façon à poursuivre les travaux.

Comme le dit walfrat, c'est une ébauche, les limites étant vite identifiées, notamment :
- 4 participants retenus, donc non généralisable à d'autres personnes
- 30-50 phrases prédéfinies utilisant 250 mots, donc peu représentatif de la variété du vocabulaire d'une personne moyenne
- notamment, le taux de 3% ne vaut que pour le meilleur cas, le pire étant plus aux environs de 20%

Ces limites seraient indigne d'une étude sérieuse mais se justifie tout à fait dans un rapport technique, évoquant des résultats obtenus dans le cadre d'une expérimentation à petite échelle. Pour autant, étant donné la technologie utilisée (réseaux de neurones), qui s'appuie sur de gros ensembles de données pour atteindre de bonnes performances, ça semble prometteur. Même s'il est fait usage de transfer learning, de façon à profiter de l'apprentissage des uns chez les autres, vu le peu de sujets, cela reste de l'ordre du small data, et non du big data, ça reste donc surprenant d'arriver à de si bons résultats. Ça ne reste néanmoins qu'une impression, l'étude étant trop réduite et pouvant donc relever du coup de bol. Par ailleurs, même si les résultats seraient confirmables par des études sérieuses, il se peut aussi qu'augmenter ces ensembles, je pense notamment à l'ensemble de phrases et mots, nécessite une quantité de processing infaisable en pratique pour atteindre des résultats similaires. Il s'agit donc vraiment de montrer qu'il y a peut-être quelque chose d'intéressant à faire, mais sans certitude aucune.

Cette étude n'a donc pas grand intérêt pour le grand public, par contre elle peut intéresser les labos qui veulent travailler sur ces sujets. Il s'agit donc plus d'une opportunité de publicité qu'autre chose.

Citation Envoyé par Olivier Famien Voir le message
Que pensez-vous des résultats de cette étude ;? Sont-ils faibles ;?
Ils sont faibles, mais c'est normal. Il ne s'agit pas de prouver quoi que ce soit ici mais de montrer qu'il y a de quoi creuser. Il se peut que ce soit pour ne rien avoir au final, mais ça on ne le saura pas tant qu'on n'aura pas creusé. Les vrais résultats de cette étude seront les fonds et collaborateurs qu'elle aura permis de motiver pour poursuivre les travaux.

Citation Envoyé par Olivier Famien Voir le message
Vu les implants à insérer dans le cerveau des utilisateurs, pensez-vous que cette technologie pourra être utilisée par le grand public dans un futur proche ;?
Il est trop tôt pour se prononcer. Pour pouvoir le faire, il faudrait que :
- les résultats de cette étude soient confirmés, or pour l'instant on n'a qu'un gros point d'interrogation
- les technologies adéquates soient développées, or si on sait que d'autres travaillent sur des interfaces moins intrusives, cela reste un champs de recherche encore jeune, et donc difficile à prévoir
- des entrepreneurs basent un business model sur ces technos, or pour l'instant ça reste une niche qui concerne principalement les personnes à capacités réduites (malades ou handicapées). Pour un usage grand public, on pourrait viser par exemple des tâches de rédaction automatique, mais pour que ça ait un réel intérêt, il faudrait avoir un équipement minimal et un taux de corrections post-génération très réduit, autrement dit la techno devrait être particulièrement optimisée sur tous les points. Pour vraiment pousser la techno, il faudrait viser les domaines ayant beaucoup de fonds, comme l'armée. Si on imagine par exemple un soldat faisant un rapport de la situation en temps réel sans avoir besoin de prononcer le moindre mot, ça pourrait faciliter l'espionnage.

Bref, du potentiel, mais encore trop de zones d'ombres pour savoir si on peut vraiment en tirer quelque chose et si les opportunités seront au rendez-vous pour pousser la techno. Donner une réponse plus tranchée à la question serait donc plus du pari qu'autre chose.
0  0