IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une avocate spécialisée dans l'open source donne son point de vue sur la plainte contre GitHub Copilot
L'assistant de programmation basé sur l'IA

Le , par Stéphane le calme

124PARTAGES

7  0 
GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Récemment, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

Kate Downin, une avocate spécialisée dans l'open source, a donné son point de vue sur la plainte en question. En somme, elle explique que les utilisateurs de Github accordent une licence spéciale à GitHub, qui contourne la licence d'origine. Cependant, si cela est vrai, tout téléchargement (upload) de code dont les utilisateurs n'ont pas le contrôle à 100% du droit d'auteur est alors une violation du droit d'auteur puisque l'utilisateur n'aurait pas le pouvoir d'accorder à Github cette licence spéciale. Ce serait similaire à un utilisateur téléchargeant (upload) un film protégé par des droits d'auteur sur YouTube, et Google l'utilisant comme licence pour se servir du film dans une publicité par exemple.


GitHub Copilot, qu'est-ce que c'est ?

Copilot a été lancé en fin juin après une Preview technique d'un an, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.


Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

Matthew Butterick a décidé de porter plainte contre GitHub Copilot aux côtés d'avocats spécialisés dans le recours collectif

En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
  • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
  • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
  • la loi californienne sur la protection de la vie privée des consommateurs ;
  • et d'autres lois donnant lieu à des réclamations légales connexes.

Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.
Le point de vue d'une avocate au sujet de la plainte

La plainte est fascinante, car la seule chose qu'elle n'allègue pas est la violation du droit d'auteur. La plainte anticipe explicitement une défense d'utilisation équitable sur ce front et tente d'éviter toute cette question principalement en portant plainte en vertu du Digital Millennium Copyright Act, centrée sur l'article 1202, qui interdit de dépouiller les œuvres protégées par le droit d'auteur de diverses informations liées au droit d'auteur. La plainte comprend également d'autres réclamations liées à :
  • la rupture de contrat liée aux licences open source dans les dépôts GitHub individuels (encore une fois, pas une réclamation de droit d'auteur)
  • l'ingérence délictuelle dans une relation contractuelle (en omettant de donner aux utilisateurs de Copilot les informations de licence appropriées auxquelles ils pourraient se conformer)
  • la fraude (relative aux mensonges présumés de GitHub dans leurs conditions d'utilisation et leur politique de confidentialité sur la façon dont le code sur GitHub ne serait pas utilisé en dehors de GitHub)
  • l'inversion de la substitution en vertu de la loi Lanham (pour avoir prétendument amené les utilisateurs de Copilot à croire que la sortie générée par Copilot appartenait à Copilot)
  • l'enrichissement sans cause (vaguement pour tout ce qui précède)
  • la concurrence déloyale (vaguement pour tout ce qui précède)
  • la rupture de contrat liée à la violation présumée par GitHub des dispositions relatives aux données personnelles dans leurs conditions d'utilisation et leur politique de confidentialité
  • la violation de la California Consumer Privacy Act (CCPA) en relation avec la prétendue violation par GitHub des dispositions relatives aux données personnelles dans leurs conditions d'utilisation et leur politique de confidentialité
  • la négligence – traitement négligent des données personnelles
  • le complot civil (vaguement pour tout ce qui précède)

Évaluation des réclamations

L'absence de revendication de droit d'auteur ici est très intéressante. La première pensée qui vient à l'esprit est que la plupart des gens qui ont du code sur GitHub ne prennent pas la peine d'enregistrer officiellement leurs droits d'auteur auprès du Bureau du droit d'auteur, ce qui signifie qu'en vertu de la Loi sur le droit d'auteur, bien qu'ils aient un droit d'auteur, ils n'ont pas le droit de faire valoir leur droit d'auteur devant les tribunaux. Parce qu'il s'agit d'un recours collectif, du moins en ce qui concerne une plainte pour violation du droit d'auteur, les avocats des plaignants auraient eu du mal à identifier les plaignants avec des droits d'auteur enregistrés et le groupe de plaignants dans le groupe serait considérablement réduit - probablement d'environ 99 %. Il existe cependant d'autres raisons de ne pas vouloir plaider une défense d'utilisation équitable. Un tel litige est extrêmement factuel, pour commencer. Il convient de noter que même si une entreprise motivée par les incitations financières qui accompagnent les recours collectifs peut ne pas vouloir intenter une action en violation du droit d'auteur, cela n'empêche certainement pas les personnes ayant d'autres motivations de porter une telle action. Sans la revendication de droit d'auteur, toute participation dans ce procès ne sera certainement pas la pierre angulaire vers laquelle les avocats se tourneront lorsqu'ils évalueront les risques juridiques liés à l'apprentissage automatique (ML).

L'autre élément qui semble étrange ici est que la plainte semble mal interpréter les conditions d'utilisation (ToS) de GitHub. Les conditions d'utilisation, comme toutes les conditions de service bien rédigées, identifient spécifiquement "GitHub" comme incluant tous ses affiliés (comme Microsoft) et les utilisateurs de GitHub accordent à GitHub le droit d'utiliser leur contenu pour exécuter et améliorer le "Service". Les conseillers en produits diligents ne seront pas surpris d'apprendre que « service » est défini comme tout service fourni par « GitHub », c'est-à-dire y compris tous les affiliés de GitHub. Alors que les profanes pourraient être surpris de savoir que publier du code sur GitHub permet en fait à un réseau géant d'entreprises d'utiliser leur code à des fins connues et inconnues, légalement, le ToS est clair sur ce point. Une allégation de fraude plus convaincante aurait été centrée sur les supports marketing de GitHub (le cas échéant) autour de l'utilisation par GitHub du code uniquement « pour GitHub ».

Presque toutes les réclamations dans cette plainte reposent sur l'idée que les seuls utilisateurs de licence de GitHub accordés à GitHub sont la licence open source sous laquelle ils ont publié leur code et il n'y a aucune mention de la licence que les utilisateurs de GitHub accordent à GitHub dans le ToS. Étant donné qu'un nombre non négligeable de dépôts GitHub ne contiennent aucune information de licence, la position des plaignants est qu'en l'absence d'une licence OSS, il n'y a ni licence dans le ToS ni aucune licence implicite permettant à GitHub d'héberger le code ? Ce serait une position étrange à prendre, d'autant plus que GitHub n'a commencé que récemment à inviter les utilisateurs à ajouter des informations de licence à leurs dépôts - ce n'est certainement jamais un champ obligatoire - et fondamentalement, chaque site Web commercial prend une licence pour le contenu utilisateur via leurs termes de service dans plus ou moins le même langage que GitHub. Il serait particulièrement étrange de prétendre qu'un utilisateur pourrait mettre n'importe quelle disposition de licence dans son dépôt et que GitHub devrait tirer l'intégralité de son droit d'héberger et d'utiliser autrement le code d'une licence invisible. Cela sonne un peu comme les "mèmes" Facebook d'antan promettant aux utilisateurs que s'ils copient et collent simplement ces phrases magiques sur leur calendrier, alors Facebook ne pourra pas faire quelque chose ou autre avec leurs données ou leurs comptes.


Impact

Dans l'ensemble, on ne sait pas ce que les plaignants (le groupe réel, pas les avocats) gagneraient réellement à forcer Copilot à afficher les informations de licence pour toutes ses suggestions protégées par le droit d'auteur. En imaginant un monde où cela est possible et facile, est-ce qu'un titulaire de droits d'auteur se sent mieux en sachant qu'un produit commercial est associé à son nom dans un fichier d'attribution d'un million de pages ? Les attributions de milliers de pages sont déjà courantes, même sans l'utilisation de Copilot sur presque tous les fichiers. Bien sûr, ce type d'informations n'est pas vraiment facile à fournir. En pratique, pour une suggestion donnée, il est fort probable qu'elle provienne de plusieurs sources différentes. Les demandeurs eux-mêmes décrivent Copilot comme fondant ses suggestions sur les approches les plus courantes. À qui revient le crédit si des milliers de personnes ont écrit cette fonction particulière de cette manière particulière (même si nous supposons qu'elle est suffisamment détaillée pour être protégée par le droit d'auteur) ? Les créditer tous est-il utile ou pratique ? Qui décide si une suggestion est réellement nouvelle ou dérivée d'un autre code et quelles mesures doivent être utilisées pour décider cela sur une échelle de millions de suggestions par jour ? La loi ne fournit pas de réponses claires à ces questions ; les experts du Bureau du droit d'auteur réfléchissent souvent à ces questions pendant des mois pour une seule œuvre protégée par le droit d'auteur et même cette décision est souvent annulée par les tribunaux. En pratique, même si GitHub voulait fournir toutes les informations de licence pertinentes pour une suggestion donnée, cela est probablement impossible dans la plupart des cas.

Si l'on en croit GitHub, Copilot ne régurgite des extraits de code exacts à partir des données d'entraînement que 1 % du temps. Une partie de ce 1 % est certainement constituée d'extraits non protégés par le droit d'auteur. Ainsi, les plaignants demandent essentiellement une attribution pour moins de 1 % des suggestions Copilot. La plainte prévoit à plusieurs reprises que toute réclamation gagnante découlera de ce 1%. Bien sûr, les titulaires de droits d'auteur concernés ont des droits, mais il ne s'agit pas exactement d'un "litige à fort impact". Cela ressemble beaucoup plus à la pêche à la traîne si une technologie par ailleurs incroyablement utile et stimulant la productivité est bloquée par des personnes qui souhaitent recevoir des paiements pour un manque d'attributions dénuées de sens.

La plupart des plaintes ouvertes sont liées à une attribution OSS incorrecte, mais curieusement, une seule ligne est consacrée à l'idée que le modèle Copilot lui-même est en fait soumis à peut-être certaines des licences du code sous-jacent et devrait en fait être open source. Si l'objectif de la plainte était d'avoir un impact significatif sur l'avenir de l'IA et du ML, alors ce serait vraiment le nœud de la plainte car ce serait un argument selon lequel les modèles de ML sont protégés par le droit d'auteur (c'est une question très controversée), que les modèles ML sont des œuvres dérivées des données de formation (c'est vraiment spécifique aux faits en fonction de la façon dont le modèle fonctionne réellement et peut-être aussi un grand bourbier philosophique), et que la sortie du modèle ML est protégée par le droit d'auteur (également très controversé parce que le Bureau du droit d'auteur n'enregistrera pas les droits d'auteur des non-humains aujourd'hui, selon leur interprétation de la Copyright Act). L'effet pratique serait probablement qu'au moins dans l'espace logiciel, le monde verrait au moins un modèle ML sous licence copyleft (ce qui pourrait ne profiter à personne si le modèle lui-même est toujours hébergé et jamais distribué et donc les propriétaires du modèle n'ont aucune obligation de partager son code source).

Mais en dehors de l'espace logiciel, où les licences open source ne prolifèrent pas et où les données de formation peuvent ne pas être du tout soumises au droit d'auteur (comme les données de formation qui sont purement des données ou qui sont dans le domaine public), cela peut créer un précédent que ML/ Les modèles d'IA devraient être protégés par le droit d'auteur, et les propriétaires d'un modèle pourraient potentiellement bloquer le développement d'un modèle similaire, bloquant ainsi les connaissances qu'un tel modèle pourrait produire sur un domaine entier de tout le monde, sauf les toutes premières personnes à créer un modèle pour cela domaine. Ou pire, la reconnaissance du droit d'auteur dans le modèle conduit à la reconnaissance du droit d'auteur dans la sortie et maintenant les humains peuvent être poursuivis pour violation des droits d'auteur liés au contenu généré par l'IA, qui peut être généré à grande échelle en très peu de temps sans aucun effort humain. Sous la bannière «ouverte», cette action en justice et d'autres similaires contribuent en fait à ouvrir la voie à une plus grande reconnaissance des droits de propriété dans une catégorie d'œuvres plus large, pas moins.

Source : Kate Downing

Et vous ?

Que pensez-vous du point de vue de Kate Downing ?

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de onilink_
Membre émérite https://www.developpez.com
Le 07/10/2023 à 20:08
Citation Envoyé par archqt Voir le message
Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"
Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.
9  1 
Avatar de totozor
Membre expert https://www.developpez.com
Le 23/08/2023 à 7:42
Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Citation Envoyé par Stéphane le calme Voir le message
ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.
C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.
4  0 
Avatar de _toma_
Membre actif https://www.developpez.com
Le 08/10/2023 à 18:28
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :
L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.
Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
4  1 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 10/11/2022 à 22:29
Très interessant.

Je serais d'avis que tout contenu à licence "contaminante" comme la GNU GPL devrait aussi être contaminant pour les modèles d'IA si ils sont entraînées avec ces données.
Surtout qu'il est clair que les gros modèles ont tendance à retenir des morceaux de code par cœur, donc on peut dire qu'ils contiennent du code GPL.

De même, tout modèle entraîné sur des données sous copyrights ne devrait pouvoir être exploité commercialement, ainsi que ses sorties.

Ce qui est assez étonnant, c'est qu'on peut voir actuellement deux poids deux mesures en fonction des données d’entraînement utilisées.

Je vais citer le cas de Stability AI et de deux de ses produits: Stable Diffusion (génération d'images) et Dance Diffusion (generation de musiques).
Dance Diffusion is also built on datasets composed entirely of copyright-free and voluntarily provided music and audio samples. Because diffusion models are prone to memorization and overfitting, releasing a model trained on copyrighted data could potentially result in legal issues. In honoring the intellectual property of artists while also complying to the best of their ability with the often strict copyright standards of the music industry, keeping any kind of copyrighted material out of training data was a must.
Stable Diffusion est entraîné sur LAION 5b, qui contient majoritairement des images sous copyright qui ont été scrap sur le net.
Mais Dance Diffusion n'utilise que des données sans copyright, car l'industrie audio est très à cheval sur le copyright.

Du coup d'un côté les musiciens sont protégés et ne verront pas leur travail utilisés pour l’entraînement de models sans leur consentement, mais on ne demande même pas l'avis des artistes.

Bref, c'est un peu du foutage de gueule.

Source de l'extrait: https://wandb.ai/wandb_gen/audio/rep...lldzoyNjkwOTM1
2  0 
Avatar de defZero
Membre extrêmement actif https://www.developpez.com
Le 10/11/2022 à 22:45
... Bref, c'est un peu du foutage de gueule.
onilink_
Oui, complètement, mais pas plus que le système de brevets ou la notion de propriété intellectuelle si l'on y réfléchit.
Pour le système de brevet, je veut bien concevoir que l'on accorde une sorte de rémunération, pour un temps donné, à un inventeur mais actuellement, le système en place ne respect pas ce principe (cf. les brevets de design sur les bords arrondies et autres).
En ce qui concerne la propriété intellectuelle, c''est encore pire, puisque l'on veut attribué une pensée à quelques un et les rémunérer parce qu'ils se déclares les premiers à l'avoir eu.
Vous avouerez qu'en y réfléchissant, c'est quand même très con, non ?
2  0 
Avatar de Fagus
Membre expert https://www.developpez.com
Le 23/08/2023 à 13:11
Citation Envoyé par totozor
autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Je suis d'accord, mais je vois deux problème légaux :
  1. que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
  2. que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 01/09/2023 à 13:24
Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.
2  0 
Avatar de JRM73
Futur Membre du Club https://www.developpez.com
Le 10/10/2023 à 14:35
@archqt

certes, mais toi, comme tu es un gars bien, tu les payes tes livres.

2  0 
Avatar de kain_tn
Expert éminent https://www.developpez.com
Le 10/10/2023 à 22:27
Citation Envoyé par _toma_ Voir le message
La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.
On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.
2  0 
Avatar de onilink_
Membre émérite https://www.developpez.com
Le 30/01/2023 à 19:04
Bien sur qu'ils contestent, quelle blague sérieux.

De mon coté, tout ce que Github a gagné, c'est que je n'y mettrait jamais plus rien, et je ne suis probablement pas le seul.

Cela fait aussi se questionner sur le libre.

Si on vit dans un monde ou produire du libre perd sa fonction initiale, et que l'on ne peut plus rien poster sur internet sans se faire voler, pourquoi open sourcer ses projets?
Parce que bon, copilot semble se limiter actuellement à Github. Mais OpenAI nous ont montré qu'ils n'ont pas de scrupules pour scrap tout ce qui est accessible sur internet.

Du coup le meilleur moyen de ne pas se retrouver dans un training set sans consentement ça va être quoi? Ne plus rien poster? Mettre des paywalls partout?
Il est beau le futur d'internet.
1  0