Bientôt une alternative au test de Turing pour l'évaluation des IA ?
L'entreprise Nuance sponsorise un concours pour passer le test Winograd
Le 2014-07-31 11:27:12, par Stéphane le calme, Chroniqueur Actualités
Le 07 juin 2014, dans le cadre d’un concours organisé par une université britannique, une intelligence artificielle russe baptisée Eugène Gootsman a réussi à se faire passer pour un jeune garçon ukrainien de 13 ans, après 5 minutes d’échanges avec un jury. 33 % des juges ont estimé qu’il s’agissait d’une véritable personne. Puisqu’il avait dépassé les 30 % requis, l’agent conversationnel avait donc passé le Test de Turing. Cet « exploit » a divisé la communauté scientifique qui ne s’accordait pas à reconnaître si, oui ou non, une intelligence artificielle avait effectivement réussi. Conceptuellement, le test de Turing reste valable, mais la communauté scientifique a-t-elle besoin d’une alternative pour mieux jauger ?
La réponse peut-être pendant la 28e édition de la conférence AAAI au Québec (Canada) sponsorisée par Nuance Communication Inc., spécialiste de la reconnaissance vocale, où des développeurs seront invités à mettre sur pied un programme capable de résoudre le test Winograd. Le test a été basé sur les recherches d'Hector Levesque, professeur de sciences informatiques de l’université de Toronto, et accessoirement vainqueur en 2013 du prix d’excellence en recherche IJCAI (une conférence bisannuelle qui récompense des chercheurs en Intelligence Artificielle pour l’excellence de leur carrière).
Hector Levesque
Au lieu de se baser sur un libre échange comme celui de Turing, il propose un QCM ciblé mettant en exergue des capacités fines de compréhension, relativement aisé pour un humain mais difficile pour une machine.
Voici un exemple : « Le ballon ne rentre pas dans le sac vert parce qu’il est trop petit. Qu’est ce qui est trop petit ? » Le sac bien entendu. Évident ? Pour un être humain, certainement, mais pas pour une Intelligence Artificielle. Répondre à une question qui semble aussi évidente requiert de comprendre le sens de la phrase.
Voici des règles que les schémas de Winograd doivent suivre :
Voici un exemple :
« Carine console Elise parce qu’elle était très en colère. Qui a été en colère ? » Réponse Elise.
« Carine a grondé Elise parce qu’elle était très en colère. Qui a grondé ? » Cette fois-ci, la réponse est Carine.
Pour le professeur Levesque, le test de Turing a plusieurs défauts qu’il explique dans le document où il donne des détails pour décrire sa technique de test. Il remet en cause par exemple le postulat de Turing qui consiste à faire mentir une machine en expliquant « qu’une machine devrait être en mesure de nous montrer qu’elle pense sans avoir à prétendre qu’elle est quelqu’un ou qu’elle a des propriétés qu’elle n’a pas. » Par la suite, il explique que pour distinguer l’intelligence humaine de l’intelligence artificielle, la conversation n’est pas le moyen le plus indiqué. Il rappelle notamment le chatbot Eliza, ce programme avec lequel Joseph Weizenbaum était parvenu à faire croire à des patients qu’ils discutaient avec un vrai psychiatre.
Quoiqu’il en soit, le premier Challenge Winograd aura lieu du 23 au 25 mars 2015 à l’Université de Standford, et le gagnant ou l’équipe gagnante empochera le prix de 25 000 dollars.
Source : AAAI
Et vous ?
Que pensez-vous de ce test ?
La réponse peut-être pendant la 28e édition de la conférence AAAI au Québec (Canada) sponsorisée par Nuance Communication Inc., spécialiste de la reconnaissance vocale, où des développeurs seront invités à mettre sur pied un programme capable de résoudre le test Winograd. Le test a été basé sur les recherches d'Hector Levesque, professeur de sciences informatiques de l’université de Toronto, et accessoirement vainqueur en 2013 du prix d’excellence en recherche IJCAI (une conférence bisannuelle qui récompense des chercheurs en Intelligence Artificielle pour l’excellence de leur carrière).
Hector Levesque
Au lieu de se baser sur un libre échange comme celui de Turing, il propose un QCM ciblé mettant en exergue des capacités fines de compréhension, relativement aisé pour un humain mais difficile pour une machine.
Voici un exemple : « Le ballon ne rentre pas dans le sac vert parce qu’il est trop petit. Qu’est ce qui est trop petit ? » Le sac bien entendu. Évident ? Pour un être humain, certainement, mais pas pour une Intelligence Artificielle. Répondre à une question qui semble aussi évidente requiert de comprendre le sens de la phrase.
Voici des règles que les schémas de Winograd doivent suivre :
- deux parties sont mentionnées dans une phrase par syntagmes nominaux. Elles peuvent être constituées de deux mâles, deux femelles, deux objets inanimés ou deux groupes de personnes ou d’objets ;
- un pronom ou adjectif possessif est utilisé dans la phrase en référence à l'une des parties, mais il doit également pouvoir être utilisé pour l’autre partie ;
- la question consiste à déterminer le référent du pronom ou adjectif possessif ;
- il y a un mot qui apparaît dans la phrase et éventuellement dans la question qui, une fois changé, change également la réponse tout en permettant à la phrase d’avoir toujours un sens.
Voici un exemple :
« Carine console Elise parce qu’elle était très en colère. Qui a été en colère ? » Réponse Elise.
« Carine a grondé Elise parce qu’elle était très en colère. Qui a grondé ? » Cette fois-ci, la réponse est Carine.
Pour le professeur Levesque, le test de Turing a plusieurs défauts qu’il explique dans le document où il donne des détails pour décrire sa technique de test. Il remet en cause par exemple le postulat de Turing qui consiste à faire mentir une machine en expliquant « qu’une machine devrait être en mesure de nous montrer qu’elle pense sans avoir à prétendre qu’elle est quelqu’un ou qu’elle a des propriétés qu’elle n’a pas. » Par la suite, il explique que pour distinguer l’intelligence humaine de l’intelligence artificielle, la conversation n’est pas le moyen le plus indiqué. Il rappelle notamment le chatbot Eliza, ce programme avec lequel Joseph Weizenbaum était parvenu à faire croire à des patients qu’ils discutaient avec un vrai psychiatre.
Quoiqu’il en soit, le premier Challenge Winograd aura lieu du 23 au 25 mars 2015 à l’Université de Standford, et le gagnant ou l’équipe gagnante empochera le prix de 25 000 dollars.
Source : AAAI
Et vous ?
-
Mr_ExalMembre expertJ'ai trois pommes dans ma main droite et deux oranges dans la main gauche, je donne deux kiwis à Eric, combien me reste-t-il de bananes ?
Je pense comme dit au dessus qu'il faudrait une batterie de tests sélectifs afin de pouvoir dire si une IA est effectivement bonne ou pas.
(Sinon tout à fait par hasard je vous conseille The Machine, film Britannique traitant du sujet).le 31/07/2014 à 13:37 -
ILPMembre confirméQuid des locuteurs étrangers, ne maîtrisant pas bien la langue, face à des tests de compréhensions compliqués ?le 31/07/2014 à 12:02
-
xureiMembre avertiJe pense qu'ici, ça n'a pas de sens. D'ailleurs, c'est comme ça que Gootsman avait réussi à duper le jury : en se faisant passer pour un étranger qui ne parle bien la langue.
A mon humble avis, ce test est une bonne idée mais ce n'est pas encore suffisant pour qualifier une IA comme "intellignete". Ce test ne vérifie qu'une chose : la capacité du logiciel à interprêter une phrase. Cela correspond à une partie très localisée du cerveau humain.
Il me semble qu'un tel test devrait faire partie d'une batterie de tests plus complets, comprenant le Test de Turing, le test de Winograd (dont il est question ici), mais aussi d'autres tests, par exemple la capacité à résoudre un problème relativement complexe (quel est l'âge du conducteur du train ? :-P).le 31/07/2014 à 13:17 -
Sirus64Membre éclairéIl rappelle notamment le chatbot Eliza, ce programme avec lequel Joseph Weizenbaum était parvenu à faire croire à des patients qu’ils discutaient avec un vrai psychiatre.
Je pense qu'avant de définir un test, il faudrait savoir ce qui définit un humain des autres animaux et machines. Or les plus récentes recherches montrent que des comportements qu'on croyait uniquement humains sont aussi présents dans d'autres espèces animales. L'homme cherche aussi à mimer des comportements dits humains pour passer ce genre de tests.
Bref qu'est-ce qu'un humain ? Même en se limitant à l'intelligence, la question n'est pas aisée !le 31/07/2014 à 14:05 -
HelpmeMMMembre éprouvéje pense de mon coté que peux importe le nombre de test , il y aura toujours quelqu'un pour dire que ce n'est pas une IA dite Intelligente.
Pour moi une IA n'est pas forcément une IA devant reproduire la pensée Humaine , du coup si elle réussi 1 des 2test a mon sens c'est bien une IA intelligente , même si son intelligence ne suffit pas a résoudre tous les problèmes.le 31/07/2014 à 14:21 -
abriotdeMembre chevronnéJe pense qu'avant de définir un test, il faudrait savoir ce qui définit un humain
Ce qu'il faut avant tout définir c'est l’intelligence : Cette capacité a prendre la meilleure décision en fonction des connaissances acquise et a en acquérir de nouvelles en fonction des résultats des actions. Ou a défaut de choisi la meilleure (ce qui est utopique) la capacité à éliminer une infinité de mauvaise solution parmi l'infinité de choix possibles.
Aujourd'hui on sait faire des machines meilleure que l'humain dans beaucoup de domaine car on lui donne des connaissance et indique comment agir en fonctions de ces connaissances.
On peut vraiment parler d'Intelligence artificiel a partir du moment ou la machine se construit ses propres connaissances.
L'avantage d'une conversation est que l'on se doit de construire de nouvelles connaissance pour avoir un raisonnement logique. On se doit de maintenir une certaine intelligence. L'idée très astucieuse des chercheurs Russe a été d'orienter la conversation et de cacher certaines faiblesse par un jeune âge et une langue étrangère. C'est un choix qui se justifie et qui leur a permis de tenir 5 minutes c'est déjà très bien. Plus l'IA progressera plus le temps tenu et la qualité des conversation augmentera. Le test de Turing est donc parfait.
Cependant il y a plein de voie a approfondir et ce nouveau test permet d'approfondir celui de la logique physico-social. C'est une sous partie d'une conversation, un sujet possible.
Il ne faut donc pas un test d'IA, mais différentes catégorie dans l'IA.
Les premier supercalculateur se sont montré plus intelligent que l'homme au calcul.
Deep-Blue (Echec) s'est montré plus intelligent que l'homme dans le cas d'un choix fini d'action aux règles simples mais aux conséquences vastes.
Watson (au jeu Jeopardy) est certainement l'ordinateur qui c'est montré le plus intelligent. Il s'est montré plus intelligent que l'homme pour se qui est de la recherche d'information sur un sujet.le 31/07/2014 à 14:49 -
verboseMembre éclairéLe protocole est trop formel. Une machine parviendra à se faire passer pour un humain trop facilement.
Déterminer quel mot est le sujet d'une phrase n'est pas d'une complexité insurmontable.
Et surmonter ce problème ne sera pas révélateur d'une grande avancée en matière IA.le 31/07/2014 à 15:17 -
PatteDePouleMembre éclairéEst-ce que les correcteurs orthographiques font déjà ce boulot? Je ne sais pas comment ça fonctionne en arrière, mais c'est l'impression que ça me donne. Dans ce cas là, il reste une petite marche à montée et nous ne sommes pas très loin de pouvoir passer le test de manière automatique...le 31/07/2014 à 16:23
-
Sirus64Membre éclairéLe but est effectivement de confondre une IA et un humain. Mais quand on parle de communication, on s'appeçoit que les autres animaux sont aussi capables d'exprimer beaucoup de choses et effectivement d'être plus intelligents que des machines en inventant des stratégies de résolutions et non simplement reproduire un apprentissage.
C'est bien là la limite de l'IA. Pour le moment, je n'ai pas vu qu'elle choisissait ce qu'elle veut étudier. Elle n'a pas de sentiment, ou de besoin, etc. qui pourrait l'orienter.
Je pense que le principal problème pour le moment est un problème de capacité de calcul vs le volume et l'énergie nécessaire. Je pense que ce n'est qu'un question de temps : on miniaturise de plus en plus, on consomme moins, on fait même de nouveau modèle de processeurs proches des modèles à résaux de neuronnes, etc.le 31/07/2014 à 20:40 -
Gwym.HMembre à l'essai« Le ballon ne rentre pas dans le sac vert parce qu’il est trop petit. Qu’est ce qui est trop petit ? »
Le ballon. Car il était trop petit pour que l'opérateur puisse le saisir afin de le mettre dans le sac.
« Carine console Elise parce qu’elle était très en colère. Qui a été en colère ? »
Carine. Car dans sa colère elle a malencontreusement blessé Elise et a été contrainte de la consoler pour la calmer.
Ben quoi, elle est au point mon IA, non ?le 01/08/2014 à 8:00