
Envoyé par
Neckara
Cela me paraît légèrement dangereux.
Ceci veut dire que tout dessin n'entrant pas dans le cadre défini par l'algorithme de trie sera rejeté.
Au final, n'est-ce pas un pas vers de l'humour "formaté", en rejetant tout humour "différent"/"original" ?
Est-ce que cela ne pourrait-il pas à terme écarter une proposition un peu moins drôle qu'on aurait pourtant sélectionné car "on" la juge de qualité bien faites, à cause du contexte actuel, etc.
N'est-ce pas aussi un risque de voir apparaître des personnes qui vont dessiner, non pas pour être drôle mais pour passer les tests ?
Dessiner une bite, c'est drôle, donc on va se retrouver avec des bites dans tous les dessins ?
Dessiner une arme, c'est pas drôle, donc on va éviter de dessiner des armes ?
De plus, même si l'algorithme a de très bon résultats au début, est-ce que le sens de l'humour d'une population ne peut pas varier suite aux événements ?
Et si ce tri rejette des images drôles mais qui ne plaisent pas au concepteur de l'algorithme ? Est-ce que les utilisateurs peuvent vraiment le remarquer ?
N'y a-t-il pas aussi un risque d'avoir la même chose, pour les divertissements, le choix des films au cinéma, le soir à la télé, le choix des articles à lire, etc.
Vous l'aurez compris, je n'en pense pas que du bien.
En soit, le contexte d'application s'y prête tout à fait : le fait est qu'on parle là d'une sélection pour un contexte figé (aider le département de bandes dessinées du magazine the New Yorker). En ce sens, ayant déjà une base de données riche, ça fait sens d'utiliser une telle technique. Autrement dit, l'humour en lui-même n'a juste rien à voir : les chercheurs ont mis en place des critères de comparaison entre 2 éléments (2 histoires), ils ont fourni une BDD pour identifier les critères significatifs, et on a ensuite appliqué ces critères pour faire nos propres classements. Autrement dit, les critères possibles sont donnés a priori, on se contente d'une étude statistique et on réapplique. L'humour en lui-même, on part du principe que c'est un critère qui émerge de ces critères significatifs pré-identifiés. On aurait utilisé les même critères pour une toute autre raison, ça aurait été pareil.
Du coup, en soit, la subjectivité du sujet est toute relative : en agglomérant des données, on ne tient pas compte de la subjectivité de chacun, mais d'une moyenne sur une communauté donnée. Si les décisions humaines sont prises sur la base d'un accord, les subjectivités individuelles s'effacent, laissant place là aussi à une moyenne, donc il ne serait pas étonnant d'obtenir de bons résultats dans ce contexte précis. Mais ça ne fait en rien un système capable de dire ce qui serait plus rigolo pour madame Michu ou monsieur Martin.
Par contre, si on sort de ce contexte, la communauté et le contenu/format diffèrent, donc le classificateur résultant de cette base de données ne peut probablement pas être employé (il faut refaire une BDD, recalculer les critères significatifs et reparamétrer l'algo en conséquence). De plus, l'étude n'est pas aussi optimiste que l'article :
the random baseline accuracy is 50%
Pour comparer 2 histoires sur le même sujet:
A random forest using only bag-of-words features achieves 52% accuracy, only slightly outperforming the random baseline. [...] With all features included,
a random forest classifier achieves 69% accuracy.
Pour comparer 2 histoires sur des sujets différents:
Using bag-of-words features alone, the random-forest classifier achieved 55% [...] Using all the features, however, the performance improved to 64%.
Enfin, pour le cas du concours du New Yorker... on ne fait pas dans la dentelle. Je ne suis pas sûr d'avoir tout compris, donc à prendre avec des pincettes, mais apparemment ils se sont amusés à faire un tournoi pour assigner des points (+3 par victoire, +1 par égalité, oui les valeurs sont arbitraires), ou chaque session consiste à dire laquelle des deux histoires gagne en faisant un classificateur qui se base sur l'ensemble de la base de données à part les 2 histoires concernées. Donc déjà on se retrouve avec des scores dont on n'est pas trop sûr à quoi ça correspond, vu que le classificateur est différent à chaque fois et qu'avoir 3 égalités revient au même que gagner 1 fois et perdre 2 fois. En plus on ne fait pas toutes les compétitions possibles, c'est bien un tournoi : on démarre au hasard et ensuite c'est ceux qui ont des scores (cumulatifs j'imagine) similaires qui sont comparés au tour suivant. L'ordre de départ peut donc avoir une influence sur le résultat final, donc dur de dire que ce soit fiable. Enfin, ils se sont octroyés une bonne marge de manoeuvre pour dire que leur approche est utile : pour le concours du New Yorker, seule la meilleure est gardée (top), mais les chercheurs se contente d'ordonner les histoires via leur tournoi et de voir jusqu'où il faut descendre dans leur liste pour retrouver une certaine quantité du top du New Yorker. Si mon compte est bon, ils ont pris 10 cas, avec pour chacun 1 top fournit par le New Yorker et 15 histoires à ordonner (je passe sur les critères restreints de sélection, cf. l'article). Ce qui nous fait un top de 10 histoires et une liste ordonnée de 150 histoires... mais je me trompe sûrement (c'est probablement beaucoup plus d'histoires ordonnées) vu qu'on nous sort des chiffres plus gros en fin d'étude. Et le résultat est qu'on retrouve 50% du top (5) dans les 0-20% du tournoi (30 premiers, mais en fait sûrement plus), plus loin on en retrouve par-ci par-là, avant d'avoir les derniers 20% du top (2) qui se retrouvent parmis les 50-60% du tournoi (75-90e place, mais en fait sûrement plus). Autant dire qu'il faut aller loin pour retrouver nos petits. Même si on se réfère au premier boom, il faut en parcourir un certain nombre pour trouver 5 histoires du top.
Je note aussi des combines assez douteuse, où on nous dit que :
For the sake of the presentation, we remove near-duplicates (for example, many variations on "You should hear the engine purr" received a very similar score).
sauf que :
For example, "The last guy got flushed", from the editor's shortlist, was ranked 248; "They flushed the last guy" was ranked 85.
donc s'il y a des différences aussi monumentales, je doute que retirer les histoires similaires soit une bonne idée.
Enfin, pour en revenir à l'article DVP, quand je lis que "Ils espèrent aussi un jour entrainer des ordinateurs à faire leurs propres blagues sur la base de situations", on sort complètement du cadre, dans le sens où ce qu'on a là est un classificateur, donc étant donné un élément et différents ensembles, on associe le premier aux seconds, et non un producteur, donc étant donné un ensemble, on crée un nouvel élément qui appartiendrait au même ensemble. Enfin bon, c'est la rengaine habituelle : on a une grosse BDD, alors utilisons une technique d'IA dessus pour faire le buzz, de toute façon ça marche toujours raisonnablement (i.e. mieux que du pur random à 50%) si on a une BDD dédiée à une tâche restreinte (si on est en dessous, il suffit d'inverser les critères, donc ça marche aussi), puis après on balance le classique "plus tard on aimerai faire un système qui produit ce qu'on lui demande pour l'instant de reconnaître", ce qui est juste radicalement différent.
2 |
0 |