Bientôt une alternative au test de Turing pour l'évaluation des IA ?

L'entreprise Nuance sponsorise un concours pour passer le test Winograd

Le 2014-07-31 11:27:12, par Stéphane le calme, Chroniqueur Actualités

Le 07 juin 2014, dans le cadre d’un concours organisé par une université britannique, une intelligence artificielle russe baptisée Eugène Gootsman a réussi à se faire passer pour un jeune garçon ukrainien de 13 ans, après 5 minutes d’échanges avec un jury. 33 % des juges ont estimé qu’il s’agissait d’une véritable personne. Puisqu’il avait dépassé les 30 % requis, l’agent conversationnel avait donc passé le Test de Turing. Cet « exploit » a divisé la communauté scientifique qui ne s’accordait pas à reconnaître si, oui ou non, une intelligence artificielle avait effectivement réussi. Conceptuellement, le test de Turing reste valable, mais la communauté scientifique a-t-elle besoin d’une alternative pour mieux jauger ?

La réponse peut-être pendant la 28e édition de la conférence AAAI au Québec (Canada) sponsorisée par Nuance Communication Inc., spécialiste de la reconnaissance vocale, où des développeurs seront invités à mettre sur pied un programme capable de résoudre le test Winograd. Le test a été basé sur les recherches d'Hector Levesque, professeur de sciences informatiques de l’université de Toronto, et accessoirement vainqueur en 2013 du prix d’excellence en recherche IJCAI (une conférence bisannuelle qui récompense des chercheurs en Intelligence Artificielle pour l’excellence de leur carrière).

Hector Levesque

Au lieu de se baser sur un libre échange comme celui de Turing, il propose un QCM ciblé mettant en exergue des capacités fines de compréhension, relativement aisé pour un humain mais difficile pour une machine.

Voici un exemple : « Le ballon ne rentre pas dans le sac vert parce qu’il est trop petit. Qu’est ce qui est trop petit ? » Le sac bien entendu. Évident ? Pour un être humain, certainement, mais pas pour une Intelligence Artificielle. Répondre à une question qui semble aussi évidente requiert de comprendre le sens de la phrase.

Voici des règles que les schémas de Winograd doivent suivre :

deux parties sont mentionnées dans une phrase par syntagmes nominaux. Elles peuvent être constituées de deux mâles, deux femelles, deux objets inanimés ou deux groupes de personnes ou d’objets ;
un pronom ou adjectif possessif est utilisé dans la phrase en référence à l'une des parties, mais il doit également pouvoir être utilisé pour l’autre partie ;
la question consiste à déterminer le référent du pronom ou adjectif possessif ;
il y a un mot qui apparaît dans la phrase et éventuellement dans la question qui, une fois changé, change également la réponse tout en permettant à la phrase d’avoir toujours un sens.

Voici un exemple :

« Carine console Elise parce qu’elle était très en colère. Qui a été en colère ? » Réponse Elise.

« Carine a grondé Elise parce qu’elle était très en colère. Qui a grondé ? » Cette fois-ci, la réponse est Carine.

Pour le professeur Levesque, le test de Turing a plusieurs défauts qu’il explique dans le document où il donne des détails pour décrire sa technique de test. Il remet en cause par exemple le postulat de Turing qui consiste à faire mentir une machine en expliquant « qu’une machine devrait être en mesure de nous montrer qu’elle pense sans avoir à prétendre qu’elle est quelqu’un ou qu’elle a des propriétés qu’elle n’a pas. » Par la suite, il explique que pour distinguer l’intelligence humaine de l’intelligence artificielle, la conversation n’est pas le moyen le plus indiqué. Il rappelle notamment le chatbot Eliza, ce programme avec lequel Joseph Weizenbaum était parvenu à faire croire à des patients qu’ils discutaient avec un vrai psychiatre.

Quoiqu’il en soit, le premier Challenge Winograd aura lieu du 23 au 25 mars 2015 à l’Université de Standford, et le gagnant ou l’équipe gagnante empochera le prix de 25 000 dollars.

Source : AAAI

Et vous ?

Que pensez-vous de ce test ?

Discussion forum

16 commentaires

Mr_Exal
Membre expert

J'ai trois pommes dans ma main droite et deux oranges dans la main gauche, je donne deux kiwis à Eric, combien me reste-t-il de bananes ?

Je pense comme dit au dessus qu'il faudrait une batterie de tests sélectifs afin de pouvoir dire si une IA est effectivement bonne ou pas.

(Sinon tout à fait par hasard je vous conseille The Machine, film Britannique traitant du sujet).

le 31/07/2014 à 13:37
ILP
Membre confirmé

Quid des locuteurs étrangers, ne maîtrisant pas bien la langue, face à des tests de compréhensions compliqués ?

le 31/07/2014 à 12:02
xurei
Membre averti

Envoyé par ILP

Quid des locuteurs étrangers, ne maîtrisant pas bien la langue, face à des tests de compréhensions compliqués ?

Je pense qu'ici, ça n'a pas de sens. D'ailleurs, c'est comme ça que Gootsman avait réussi à duper le jury : en se faisant passer pour un étranger qui ne parle bien la langue.

A mon humble avis, ce test est une bonne idée mais ce n'est pas encore suffisant pour qualifier une IA comme "intellignete". Ce test ne vérifie qu'une chose : la capacité du logiciel à interprêter une phrase. Cela correspond à une partie très localisée du cerveau humain.

Il me semble qu'un tel test devrait faire partie d'une batterie de tests plus complets, comprenant le Test de Turing, le test de Winograd (dont il est question ici), mais aussi d'autres tests, par exemple la capacité à résoudre un problème relativement complexe (quel est l'âge du conducteur du train ? :-P).

le 31/07/2014 à 13:17
Sirus64
Membre éclairé

Il rappelle notamment le chatbot Eliza, ce programme avec lequel Joseph Weizenbaum était parvenu à faire croire à des patients qu’ils discutaient avec un vrai psychiatre.

Doit-on en déduire que les psychiatres sont moins que des humains ??

Je pense qu'avant de définir un test, il faudrait savoir ce qui définit un humain des autres animaux et machines. Or les plus récentes recherches montrent que des comportements qu'on croyait uniquement humains sont aussi présents dans d'autres espèces animales. L'homme cherche aussi à mimer des comportements dits humains pour passer ce genre de tests.

Bref qu'est-ce qu'un humain ? Même en se limitant à l'intelligence, la question n'est pas aisée !

le 31/07/2014 à 14:05
HelpmeMM
Membre éprouvé

Envoyé par xurei

Je pense qu'ici, ça n'a pas de sens. D'ailleurs, c'est comme ça que Gootsman avait réussi à duper le jury : en se faisant passer pour un étranger qui ne parle bien la langue.

A mon humble avis, ce test est une bonne idée mais ce n'est pas encore suffisant pour qualifier une IA comme "intelligente". Ce test ne vérifie qu'une chose : la capacité du logiciel à interpréter une phrase. Cela correspond à une partie très localisée du cerveau humain.

Il me semble qu'un tel test devrait faire partie d'une batterie de tests plus complets, comprenant le Test de Turing, le test de Winograd (dont il est question ici), mais aussi d'autres tests, par exemple la capacité à résoudre un problème relativement complexe (quel est l'âge du conducteur du train ? :-P).

je pense de mon coté que peux importe le nombre de test , il y aura toujours quelqu'un pour dire que ce n'est pas une IA dite Intelligente.

Pour moi une IA n'est pas forcément une IA devant reproduire la pensée Humaine , du coup si elle réussi 1 des 2test a mon sens c'est bien une IA intelligente , même si son intelligence ne suffit pas a résoudre tous les problèmes.

le 31/07/2014 à 14:21
abriotde
Membre chevronné

Je pense qu'avant de définir un test, il faudrait savoir ce qui définit un humain

Non, on sait tous que les être humains sont intelligents. Même les plus bêtes sont plus intelligents que les machines.
Ce qu'il faut avant tout définir c'est l’intelligence : Cette capacité a prendre la meilleure décision en fonction des connaissances acquise et a en acquérir de nouvelles en fonction des résultats des actions. Ou a défaut de choisi la meilleure (ce qui est utopique) la capacité à éliminer une infinité de mauvaise solution parmi l'infinité de choix possibles.
Aujourd'hui on sait faire des machines meilleure que l'humain dans beaucoup de domaine car on lui donne des connaissance et indique comment agir en fonctions de ces connaissances.
On peut vraiment parler d'Intelligence artificiel a partir du moment ou la machine se construit ses propres connaissances.

L'avantage d'une conversation est que l'on se doit de construire de nouvelles connaissance pour avoir un raisonnement logique. On se doit de maintenir une certaine intelligence. L'idée très astucieuse des chercheurs Russe a été d'orienter la conversation et de cacher certaines faiblesse par un jeune âge et une langue étrangère. C'est un choix qui se justifie et qui leur a permis de tenir 5 minutes c'est déjà très bien. Plus l'IA progressera plus le temps tenu et la qualité des conversation augmentera. Le test de Turing est donc parfait.

Cependant il y a plein de voie a approfondir et ce nouveau test permet d'approfondir celui de la logique physico-social. C'est une sous partie d'une conversation, un sujet possible.

Il ne faut donc pas un test d'IA, mais différentes catégorie dans l'IA.

Les premier supercalculateur se sont montré plus intelligent que l'homme au calcul.
Deep-Blue (Echec) s'est montré plus intelligent que l'homme dans le cas d'un choix fini d'action aux règles simples mais aux conséquences vastes.
Watson (au jeu Jeopardy) est certainement l'ordinateur qui c'est montré le plus intelligent. Il s'est montré plus intelligent que l'homme pour se qui est de la recherche d'information sur un sujet.

le 31/07/2014 à 14:49
verbose
Membre éclairé

Le protocole est trop formel. Une machine parviendra à se faire passer pour un humain trop facilement.
Déterminer quel mot est le sujet d'une phrase n'est pas d'une complexité insurmontable.
Et surmonter ce problème ne sera pas révélateur d'une grande avancée en matière IA.

le 31/07/2014 à 15:17
PatteDePoule
Membre éclairé

Envoyé par verbose

Déterminer quel mot est le sujet d'une phrase n'est pas d'une complexité insurmontable.

Est-ce que les correcteurs orthographiques font déjà ce boulot? Je ne sais pas comment ça fonctionne en arrière, mais c'est l'impression que ça me donne. Dans ce cas là, il reste une petite marche à montée et nous ne sommes pas très loin de pouvoir passer le test de manière automatique...

le 31/07/2014 à 16:23
Sirus64
Membre éclairé

Envoyé par abriotde

Non, on sait tous que les être humains sont intelligents. Même les plus bêtes sont plus intelligents que les machines.

Le but est effectivement de confondre une IA et un humain. Mais quand on parle de communication, on s'appeçoit que les autres animaux sont aussi capables d'exprimer beaucoup de choses et effectivement d'être plus intelligents que des machines en inventant des stratégies de résolutions et non simplement reproduire un apprentissage.

Envoyé par abriotde

Aujourd'hui on sait faire des machines meilleure que l'humain dans beaucoup de domaine car on lui donne des connaissance et indique comment agir en fonctions de ces connaissances.
On peut vraiment parler d'Intelligence artificiel a partir du moment ou la machine se construit ses propres connaissances.

C'est bien là la limite de l'IA. Pour le moment, je n'ai pas vu qu'elle choisissait ce qu'elle veut étudier. Elle n'a pas de sentiment, ou de besoin, etc. qui pourrait l'orienter.

Envoyé par abriotde

Les premier supercalculateur se sont montré plus intelligent que l'homme au calcul.
Deep-Blue (Echec) s'est montré plus intelligent que l'homme dans le cas d'un choix fini d'action aux règles simples mais aux conséquences vastes.
Watson (au jeu Jeopardy) est certainement l'ordinateur qui c'est montré le plus intelligent. Il s'est montré plus intelligent que l'homme pour se qui est de la recherche d'information sur un sujet.

Je pense que le principal problème pour le moment est un problème de capacité de calcul vs le volume et l'énergie nécessaire. Je pense que ce n'est qu'un question de temps : on miniaturise de plus en plus, on consomme moins, on fait même de nouveau modèle de processeurs proches des modèles à résaux de neuronnes, etc.

le 31/07/2014 à 20:40
Gwym.H
Membre à l'essai

« Le ballon ne rentre pas dans le sac vert parce qu’il est trop petit. Qu’est ce qui est trop petit ? »
Le ballon. Car il était trop petit pour que l'opérateur puisse le saisir afin de le mettre dans le sac.

« Carine console Elise parce qu’elle était très en colère. Qui a été en colère ? »
Carine. Car dans sa colère elle a malencontreusement blessé Elise et a été contrainte de la consoler pour la calmer.

Ben quoi, elle est au point mon IA, non ?

le 01/08/2014 à 8:00

Poster une réponse