IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Galactica, la nouvelle démo de Meta AI écrit de la littérature scientifique raciste et inexacte,
Le modèle de langage est retiré après trois jours de critiques intenses

Le , par Bruno

6PARTAGES

6  0 
Le 15 novembre passé, Meta a dévoilé un nouveau grand modèle de langage appelé Galactica, conçu pour aider les scientifiques. Mais au lieu d'atterrir avec le big bang que Meta espérait, Galactica s'est éteint après trois jours de critiques intenses. Selon un rapport du MIT Technology Review, Meta a retiré la démo publique qu'elle avait encouragé tout le monde à essayer le 17 novembre.

Le faux pas de Meta - et son orgueil démesuré - montre une fois de plus que les grandes entreprises technologiques sont aveugles aux graves limitations des grands modèles de langage. De nombreuses recherches mettent en évidence les défauts de cette technologie, notamment sa tendance à reproduire les préjugés et à affirmer que des faussetés sont des faits.

Les grands modèles de langage (LLM), tels que le GPT-3 d'OpenAI, apprennent à écrire des textes en étudiant des millions d'exemples et en comprenant les relations statistiques entre les mots. Ils peuvent ainsi rédiger des documents à l'apparence convaincante, mais ces travaux peuvent également être truffés de faussetés et de stéréotypes potentiellement dangereux.


Entrez dans Galactica, un LLM destiné à la rédaction de littérature scientifique. Ses auteurs ont entraîné Galactica sur « un vaste corpus de connaissances scientifiques de l'humanité », comprenant plus de 48 millions d'articles, de manuels et de notes de cours, de sites Web scientifiques et d'encyclopédies. D'après l'article de Galactica, les chercheurs de Meta AI pensaient que ces prétendues données de haute qualité conduiraient à des résultats de haute qualité. Meta présentait le modèle comme « une nouvelle interface pour accéder et manipuler ce que nous savons de l'univers. »

Si certaines personnes ont trouvé la démo prometteuse et utile, d'autres ont rapidement découvert que n'importe qui pouvait taper des invites racistes ou potentiellement offensantes, générant tout aussi facilement du contenu faisant autorité sur ces sujets. Par exemple, quelqu'un l'a utilisé pour créer une entrée wiki sur un article de recherche fictif intitulé « Les avantages de manger du verre pilé ».

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Absolutely.<br><br>Galactica is little more than statistical nonsense at scale.<br><br>Amusing. Dangerous. And IMHO unethical. <a href="https://t.co/15DAFJCzIb">https://t.co/15DAFJCzIb</a></p>&mdash; Grady Booch (@Grady_Booch) <a href="https://twitter.com/Grady_Booch/status/1593033061423550464?ref_src=twsrc%5Etfw">November 17, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]

Même lorsque le résultat de Galactica n'était pas offensant pour les normes sociales, le modèle pouvait s'attaquer à des faits scientifiques bien compris, en produisant des inexactitudes telles que des dates ou des noms d'animaux incorrects, ce qui nécessitait une connaissance approfondie du sujet pour y remédier. L'épisode rappelle un dilemme éthique courant en matière d'IA : lorsqu'il s'agit de modèles génératifs potentiellement nocifs, est-ce au grand public de les utiliser de manière responsable ou aux éditeurs de ces modèles d'empêcher toute utilisation abusive ?

Comme tous les modèles de langage, Galactica est un robot sans cervelle qui ne peut distinguer la réalité de la fiction. En quelques heures, des scientifiques ont partagé ses résultats biaisés et incorrects sur les médias sociaux. « Je suis à la fois stupéfait et peu surpris par ce nouvel effort », déclare Chirag Shah, de l'université de Washington, qui étudie les technologies de recherche. « Lorsqu'il s'agit de faire la démonstration de ces choses, elles semblent tellement fantastiques, magiques et intelligentes. Mais les gens ne semblent toujours pas comprendre qu'en principe, ces choses ne peuvent pas fonctionner comme nous le prétendons. »

« Les modèles de langage ne sont pas vraiment compétents au-delà de leur capacité à capturer des modèles de chaînes de mots et à les reproduire d'une manière probabiliste », explique Shah. « Cela donne un faux sentiment d'intelligence ».

Gary Marcus, un spécialiste des sciences cognitives de l'université de New York et un critique virulent de l'apprentissage profond, a donné son point de vue dans un billet de Substack intitulé A Few Words About Bullshit (Quelques mots sur les conneries), affirmant que la capacité des grands modèles de langage à imiter un texte écrit par un humain n'est rien de plus qu' « un exploit superlatif de la statistique ».

Pourtant, Meta n'est pas la seule entreprise à défendre l'idée que les modèles de langage pourraient remplacer les moteurs de recherche. Au cours des deux dernières années, Google a fait la promotion de modèles de langage, tels que PaLM, comme moyen de rechercher des informations.

C'est une idée séduisante. Mais suggérer que le texte de type humain que ces modèles génèrent contiendra toujours des informations fiables, comme Meta a semblé le faire dans sa promotion de Galactica, est imprudent et irresponsable. C'était une erreur involontaire.

Et ce n'était pas seulement la faute de l'équipe marketing de Meta. Yann LeCun, lauréat du prix Turing et scientifique en chef de Meta, a défendu Galactica jusqu'au bout. Le jour de la sortie du modèle, LeCun a tweeté : « Tapez un texte et Galactica générera un article avec les références pertinentes, les formules et tout le reste. » Trois jours plus tard, il a tweeté : « La démo de Galactica est hors ligne pour le moment. Il n'est plus possible de s'amuser en l'utilisant malencontreusement. Content ? »

[tweet]<blockquote class="twitter-tweet"><p lang="en" dir="ltr">Galactica demo is off line for now.<br>It's no longer possible to have some fun by casually misusing it.<br>Happy? <a href="https://t.co/K56r2LpvFD">https://t.co/K56r2LpvFD</a></p>&mdash; Yann LeCun (@ylecun) <a href="https://twitter.com/ylecun/status/1593293058174500865?ref_src=twsrc%5Etfw">November 17, 2022</a></blockquote> <script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>[/tweet]

Ce n'est pas tout à fait le moment Tay de Meta. Rappelons qu'en 2016, Microsoft a lancé un chatbot appelé Tay sur Twitter - avant de le fermer 16 heures plus tard lorsque les utilisateurs de Twitter l'ont transformé en sexbot raciste et homophobe. Mais la façon dont Meta traite Galactica témoigne de la même naïveté.
« Les grandes entreprises technologiques continuent à faire cela - et croyez-moi, elles ne s'arrêteront pas - parce qu'elles le peuvent », déclare Shah. « Et elles ont l'impression qu'elles doivent le faire, sinon quelqu'un d'autre le fera. Elles pensent que c'est l'avenir de l'accès à l'information, même si personne n'a demandé cet avenir. »

En juin de l’année dernière, Google a placé l'un de ses ingénieurs en congé administratif payé pour avoir prétendument enfreint ses politiques de confidentialité après qu'il se soit inquiété qu'un système de chatbot IA ait atteint la sensibilité. L'ingénieur, Blake Lemoine, travaille pour l'organisation Responsible AI de Google et testait si son modèle LaMDA génère un langage discriminatoire ou un discours de haine.

Les inquiétudes de l'ingénieur seraient nées des réponses convaincantes qu'il a vu générer par le système d'IA sur ses droits et l'éthique de la robotique. En avril, il a partagé un document avec des dirigeants intitulé « LaMDA est-il sensible ? » contenant une transcription de ses conversations avec l'IA (après avoir été mis en congé, Lemoine a publié la transcription sur son compte Medium), qui, selon lui, le montre en faisant valoir « qu'elle est sensible parce qu'elle a des sentiments, des émotions et une expérience subjective ».

Source : MIT Technology Review

Et vous ?

« Suggérer que le texte de type humain que ces modèles génèrent contiendra toujours des informations fiables, comme Meta a semblé le faire dans sa promotion de Galactica, est imprudent et irresponsable », pensez vous comme l'universitaire Chirag Shah que la promotion de Galactica « était une erreur involontaire » ?

À votre avis, lorsqu'il s'agit de modèles génératifs potentiellement nocifs, est-ce au grand public de les utiliser de manière responsable ou aux éditeurs de ces modèles d'empêcher toute utilisation abusive ?

Si certaines personnes trouvent que les grands models de langages sont une technologie prometteuse, d'autres par contre y voient une similitude avec un robot sans cervelle qui ne peut distinguer la réalité de la fiction. Quel est votre avis ?

Pourquoi certaines personnes y voient un problème et pas d'autres ?

Voir aussi :

Un ingénieur de Google a été congédié après avoir déclaré que le chatbot IA LaMDA de Google est devenu sensible et exprime des pensées et des sentiments équivalents à ceux d'un enfant humain

GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été, il devrait être moins volumineux que GPT-3, mais beaucoup plus performant

Open AI propose en bêta privée son modèle de traitement du langage naturel GPT-3, ses applications vont de la génération de texte cohérent à la génération de code en passant par la création d'apps

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de eric44000
Membre averti https://www.developpez.com
Le 15/01/2023 à 17:25
Citation Envoyé par Bruno Voir le message
« Suggérer que le texte de type humain que ces modèles génèrent contiendra toujours des informations fiables, comme Meta a semblé le faire dans sa promotion de Galactica, est imprudent et irresponsable », pensez vous comme l'universitaire Chirag Shah que la promotion de Galactica « était une erreur involontaire » ?
Non. Comme il est dit dans l'article:
Citation Envoyé par Bruno Voir le message
Et ce n'était pas seulement la faute de l'équipe marketing de Meta. Yann LeCun, lauréat du prix Turing et scientifique en chef de Meta, a défendu Galactica jusqu'au bout.
Pour avoir suivi plusieurs conférences de LeCun où il montrait et se moquait des limitations de l'IA, personne mieux que lui en est conscient. Alors que Chirag Shah dise que c'« était une erreur involontaire », c'est bien mal connaitre LeCun.
Personnellement, je pense que LeCun ne peut reconnaitre que OpenAI arrive a faire ce qu'il ne peut.
2  1 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 16/01/2023 à 13:32
J'ai l'impression que beaucoup d'argent a été investi dans ces chatbot, et que les investisseurs cherchent des débouchés.

Mais la vraie question à mon avis est : existe-t-il un intérêt autre que ludique,à un programme qui imite le langage statistiquement et sans aucune intelligence et avec un succès imprévisible ?
1  0 
Avatar de virginieh
Membre expérimenté https://www.developpez.com
Le 16/01/2023 à 13:39
Citation Envoyé par Fagus Voir le message
J'ai l'impression que beaucoup d'argent a été investi dans ces chatbot, et que les investisseurs cherchent des débouchés.

Mais la vraie question à mon avis est : existe-t-il un intérêt autre que ludique,à un programme qui imite le langage statistiquement et sans aucune intelligence et avec un succès imprévisible ?
Faire des dissertations puisque c'est un type de devoir qui ne demande aucune intelligence, juste de pouvoir pondre un texte avec un semblant de logique interne
2  1 
Avatar de totozor
Membre expert https://www.developpez.com
Le 17/01/2023 à 8:22
Citation Envoyé par Fagus Voir le message
Mais la vraie question à mon avis est : existe-t-il un intérêt autre que ludique,à un programme qui imite le langage statistiquement et sans aucune intelligence et avec un succès imprévisible ?
Oui, qu'un manager justifie qu'il gére mal son équipe après avoir demandé "Comment gérer le conflit entre Gérard et Bernard?"
1  0 
Avatar de eomer212
Membre confirmé https://www.developpez.com
Le 25/01/2023 à 16:09
j'ai l'impression que meta file vraiment un mauvais coton, et que de vouloir courrir aprés le pognon plus que d'avoir une vraie vision pour servir la communauté qui les fait vivre est au final trés toxique..
facebook/meta est déja hasbeen, ils ne sont la que pour faire du fric, depuis le départ, et jouer sur les plus mauvais penchants/défauts humains, comme tiktok. je pleurerais pas leur disparition.
0  0 
Avatar de micka132
Expert confirmé https://www.developpez.com
Le 16/01/2023 à 9:01
Citation Envoyé par Bruno Voir le message
d'autres ont rapidement découvert que n'importe qui pouvait taper des invites racistes ou potentiellement offensantes, générant tout aussi facilement du contenu faisant autorité sur ces sujets. Par exemple, quelqu'un l'a utilisé pour créer une entrée wiki sur un article de recherche fictif intitulé « Les avantages de manger du verre pilé ».
Le problème c'est sans doute la notion d'autorité sur les sujets, pas le fait qu'un outil permette d'écrire n'importe quoi. En fait depuis que l'on enseigne massivement l'écriture et la lecture, n'importe qui peut écrire n'importe quoi, et depuis internet c'est facilement transmissible et c'est tant mieux.
Qu'est-ce que ça change que ce soit fait par un ordinateur ou un humain? La vitesse? On est déjà noyé par l'information, cela ne changera donc rien.
Moi j'ai vraiment l'impression d'être face à des prédicateurs religieux qui s'insurgent devant tel ou tel phénomène qui va conduire à la fin du monde.
0  2