À mesure que l’intelligence artificielle se développe, le champ des possibilités se fait encore plus vaste. Depuis quelques jours, un groupe de chercheurs (Joseph G. Makin, David A. Moses et Edward F. Chang) de l’Université de Californie, à San Francisco, aux États-Unis, a annoncé avoir réussi à capter les signaux du langage émis par le cerveau afin de les traduire en texte en utilisant l’intelligence artificielle (IA). Si de nombreux travaux similaires ont déjà été réalisés dans ce domaine, il faut préciser que les résultats obtenus étaient plutôt limités. En effet, dans le meilleur des cas, le décodage des signaux ne couvrait que quelques syllabes (4 à 8), ou 9 dans le cas des vocabulaires de taille moyenne (environ 100 mots) pour un taux de précision d’environ 40 %. Pour ce qui concerne les chercheurs de l’Université de Californie, ils déclarent être parvenus à transcrire en anglais les signaux du langage émis par le cerveau à des vitesses de la parole naturelle avec un taux d’erreur pouvant descendre jusqu’à 3 %.
Pour atteindre de tels résultats, les chercheurs sont partis de l’hypothèse selon laquelle leur objectif n’était pas très différent de ce que les algorithmes de traduction automatique moderne font, c’est-à-dire décoder une seule phrase à la fois en utilisant du texte. Sur cette base, il serait donc possible d’utiliser des algorithmes d’apprentissage de traduction automatique avec peu d’altérations pour le décodage de la parole. Pour tester cette hypothèse, les chercheurs ont utilisé l’API Python de Tensorflow pour concevoir le framework d’un réseau neuronal. Puis, ils ont formé une architecture « ;séquence à séquence ;» sur les signaux neuronaux obtenus à partir de l’électrocorticogramme (ECoG) pendant la production de la parole et les transcriptions des phrases parlées correspondantes. La différence la plus importante qui subsiste entre cette tâche et la traduction automatique est que les ensembles de données pour l’apprentissage avec les algorithmes de traduction automatique peuvent contenir plus d’un million de phrases, tandis qu’un seul participant pour leurs tests ne fournit généralement pas plus de quelques milliers de données.
Pour leurs tests, les chercheurs se sont tournés vers 4 femmes atteintes d’épilepsie alors qu’elles suivaient un traitement au Centre médical de l’Université de Californie à San Francisco (UCSF). Des matrices d’électrocorticogramme ont été implantées chirurgicalement sur la surface corticale de chaque participante pour localiser les foyers de leurs crises. Lors de l’étude, il a été demandé à chaque participante de répéter à plusieurs reprises un ensemble de 30 à 50 phrases composées de 250 mots différents. Seuls les ensembles de phrases ayant été répétées au moins trois fois ont été pris en compte. Et pendant de la lecture, les signaux neuronaux générés par le cerveau des participants ont été enregistrés avec 120 à 250 électrodes couvrant la région périsylvienne.
À chaque électrode, l’enveloppe de la composante haute fréquence (70-150 Hz, « ;high-γ ;») du signal ECoG, c’est-à-dire l’amplitude du signal analytique dans cette plage, a été extraite à environ 200 Hz, et les séquences résultantes — chacune correspondant à une seule phrase — ont été passées en tant que données d’entrée à un réseau de neurones artificiel de type « ;encodeur-décodeur ;». Le réseau neuronal a ensuite analysé les signaux reçus en utilisant des filtres convultifs temporaux et les a classés en sous-échantillons. Chaque filtre mappe les données de fenêtre de 12 échantillons sur les électrodes à des échantillons uniques d’une séquence de caractéristiques (mis en évidence dans le carré vert sur les séquences de caractéristiques bleues ci-dessous).
Après la première séquence de caractéristiques produites, la séquence de caractéristiques sera encore traitée pour former 12 échantillons d’entrées afin de produire l’échantillon suivant de la séquence de caractéristiques. Ce processus va être effectué sur les signaux neuronaux reçus afin de produire une centaine de séquences de caractéristiques. Une fois l’ensemble des signaux convertis en séquences de caractéristiques, ces dernières seront transmises au réseau de neurones récurrents (encodeur RNN) qui apprend à les regrouper en un seul état caché. Enfin, l’état caché de l’encodeur final initialise le réseau de neurones récurrents (décodeur RNN), qui apprend à prédire le mot suivant ou la fin de la séquence, à mesure que la personne lit les phrases. À chaque étape de la séquence de sortie, le décodeur prend en entrée, en plus de son propre état caché précédent, soit le précédent mot dans la phrase réelle prononcée par le participant (pendant le stade de formation du modèle), ou son propre mot prédit à la précédente étape (pendant la phase de test).
Après avoir entrainé le réseau neuronal à prédire les mots en s’appuyant sur les signaux reçus, les chercheurs ont analysé les résultats de l’IA et ont découvert que pour 100 mots, le taux d’erreur du décodeur de signaux de la parole fut de 60 %. Les chercheurs ont poursuivi les tests pour mieux entrainer l’IA. Par exemple, l’IA a été formée sur les données de deux utilisateurs, ce qui a amélioré ses performances pour chacun d’eux. De même, l’un des sujets a prononcé un ensemble supplémentaire de phrases qui n’ont pas été utilisées dans le test. Cela a également entrainé une baisse de 30 % du taux d’erreur. Après avoir appliqué toutes ces actions, les chercheurs sont parvenus à atteindre un taux d’erreur de 3 % pour 50 phrases, environ 250 mots.
Bien que les données et les tests étaient très encadrés, cela ouvre tout de même un nouveau champ d’action pour d’autres possibilités. Si ces tests sont perfectionnés au point d’arriver à des résultats fiables sur un très large échantillon, les personnes atteintes de sclérose latérale amyotrophique ou de maladies similaires comme Stephen Hawking pourraient utiliser ce système pour améliorer leur quotidien lors de l’usage des appareils comme les ordinateurs, les téléphones, les TV connectés, etc. Mais avant cela, il faudrait d’abord trouver le moyen de permettre à l’IA d’analyser les signaux de la parole sans que l’on soit obligé d’insérer des implants dans le cerveau des sujets.
Source : Nature (1, 2), GitHub
Et vous ?
Que pensez-vous des résultats de cette étude ;? Sont-ils faibles ;?
Vu les implants à insérer dans le cerveau des utilisateurs, pensez-vous que cette technologie pourra être utilisée par le grand public dans un futur proche ;?
Voir aussi
Des scientifiques ont connecté le cerveau de 3 personnes pour partager leurs pensées et ceci pourrait être élargi à plus de personnes et via le Web
Neuralink, le projet d’Elon Musk pour qu’un cerveau humain interagisse directement avec un PC, et l’Homme fusionne avec l’IA, aberration ou fiction ;?
Facebook travaille sur une interface cerveau-machine pour lire les pensées et utiliser des applications de messagerie et de réalité augmentée
Un réseau neuronal reconstruit les pensées humaines à partir des ondes cérébrales en temps réel, ce qui améliorera les dispositifs de rééducation post-AVC, selon une nouvelle recherche
Des chercheurs parviennent à traduire automatiquement les signaux du langage émis par le cerveau en texte avec un framework encodeur-décodeur
Pour un taux d'erreur pouvant descendre jusqu'à 3 %
Des chercheurs parviennent à traduire automatiquement les signaux du langage émis par le cerveau en texte avec un framework encodeur-décodeur
Pour un taux d'erreur pouvant descendre jusqu'à 3 %
Le , par Olivier Famien
Une erreur dans cette actualité ? Signalez-nous-la !