
Kate Downin, une avocate spécialisée dans l'open source, a donné son point de vue sur la plainte en question. En somme, elle explique que les utilisateurs de Github accordent une licence spéciale à GitHub, qui contourne la licence d'origine. Cependant, si cela est vrai, tout téléchargement (upload) de code dont les utilisateurs n'ont pas le contrôle à 100% du droit d'auteur est alors une violation du droit d'auteur puisque l'utilisateur n'aurait pas le pouvoir d'accorder à Github cette licence spéciale. Ce serait similaire à un utilisateur téléchargeant (upload) un film protégé par des droits d'auteur sur YouTube, et Google l'utilisant comme licence pour se servir du film dans une publicité par exemple.
GitHub Copilot, qu'est-ce que c'est ?
Copilot a été lancé en fin juin après une Preview technique d'un an, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.
GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.
Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.
Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.
Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.
Matthew Butterick a décidé de porter plainte contre GitHub Copilot aux côtés d'avocats spécialisés dans le recours collectif
En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)
En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.
En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
- les conditions d'utilisation et les politiques de confidentialité de GitHub ;
- le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
- la loi californienne sur la protection de la vie privée des consommateurs ;
- et d'autres lois donnant lieu à des réclamations légales connexes.
Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.
La plainte est fascinante, car la seule chose qu'elle n'allègue pas est la violation du droit d'auteur. La plainte anticipe explicitement une défense d'utilisation équitable sur ce front et tente d'éviter toute cette question principalement en portant plainte en vertu du Digital Millennium Copyright Act, centrée sur l'article 1202, qui interdit de dépouiller les œuvres protégées par le droit d'auteur de diverses informations liées au droit d'auteur. La plainte comprend également d'autres réclamations liées à :
- la rupture de contrat liée aux licences open source dans les dépôts GitHub individuels (encore une fois, pas une réclamation de droit d'auteur)
- l'ingérence délictuelle dans une relation contractuelle (en omettant de donner aux utilisateurs de Copilot les informations de licence appropriées auxquelles ils pourraient se conformer)
- la fraude (relative aux mensonges présumés de GitHub dans leurs conditions d'utilisation et leur politique de confidentialité sur la façon dont le code sur GitHub ne serait pas utilisé en dehors de GitHub)
- l'inversion de la substitution en vertu de la loi Lanham (pour avoir prétendument amené les utilisateurs de Copilot à croire que la sortie générée par Copilot appartenait à Copilot)
- l'enrichissement sans cause (vaguement pour tout ce qui précède)
- la concurrence déloyale (vaguement pour tout ce qui précède)
- la rupture de contrat liée à la violation présumée par GitHub des dispositions relatives aux données personnelles dans leurs conditions d'utilisation et leur politique de confidentialité
- la violation de la California Consumer Privacy Act (CCPA) en relation avec la prétendue violation par GitHub des dispositions relatives aux données personnelles dans leurs conditions d'utilisation et leur politique de confidentialité
- la négligence – traitement négligent des données personnelles
- le complot civil (vaguement pour tout ce qui précède)
Évaluation des réclamations
L'absence de revendication de droit d'auteur ici est très intéressante. La première pensée qui vient à l'esprit est que la plupart des gens qui ont du code sur GitHub ne prennent pas la peine d'enregistrer officiellement leurs droits d'auteur auprès du Bureau du droit d'auteur, ce qui signifie qu'en vertu de la Loi sur le droit d'auteur, bien qu'ils aient un droit d'auteur, ils n'ont pas le droit de faire valoir leur droit d'auteur devant les tribunaux. Parce qu'il s'agit d'un recours collectif, du moins en ce qui concerne une plainte pour violation du droit d'auteur, les avocats des plaignants auraient eu du mal à identifier les plaignants avec des droits d'auteur enregistrés et le groupe de plaignants dans le groupe serait considérablement réduit - probablement d'environ 99 %. Il existe cependant d'autres raisons de ne pas vouloir plaider une défense d'utilisation équitable. Un tel litige est extrêmement factuel, pour commencer. Il convient de noter que même si une entreprise motivée par les incitations financières qui accompagnent les recours collectifs peut ne pas vouloir intenter une action en violation du droit d'auteur, cela n'empêche certainement pas les personnes ayant d'autres motivations de porter une telle action. Sans la revendication de droit d'auteur, toute participation dans ce procès ne sera certainement pas la pierre angulaire vers laquelle les avocats se tourneront lorsqu'ils évalueront les risques juridiques liés à l'apprentissage automatique (ML).
L'autre élément qui semble étrange ici est que la plainte semble mal interpréter les conditions d'utilisation (ToS) de GitHub. Les conditions d'utilisation, comme toutes les conditions de service bien rédigées, identifient spécifiquement "GitHub" comme incluant tous ses affiliés (comme Microsoft) et les utilisateurs de GitHub accordent à GitHub le droit d'utiliser leur contenu pour exécuter et améliorer le "Service". Les conseillers en produits diligents ne seront pas surpris d'apprendre que « service » est défini comme tout service fourni par « GitHub », c'est-à-dire y compris tous les affiliés de GitHub. Alors que les profanes pourraient être surpris de savoir que publier du code sur GitHub permet en fait à un réseau géant d'entreprises d'utiliser leur code à des fins connues et inconnues, légalement, le ToS est clair sur ce point. Une allégation de fraude plus convaincante aurait été centrée sur les supports marketing de GitHub (le cas échéant) autour de l'utilisation par GitHub du code uniquement « pour GitHub ».
Presque toutes les réclamations dans cette plainte reposent sur l'idée que les seuls utilisateurs de licence de GitHub accordés à GitHub sont la licence open source sous laquelle ils ont publié leur code et il n'y a aucune mention de la licence que les utilisateurs de GitHub accordent à GitHub dans le ToS. Étant donné qu'un nombre non négligeable de dépôts GitHub ne contiennent aucune information de licence, la position des plaignants est qu'en l'absence d'une licence OSS, il n'y a ni licence dans le ToS ni aucune licence implicite permettant à GitHub d'héberger le code ? Ce serait une position étrange à prendre, d'autant plus que GitHub n'a commencé que récemment à inviter les utilisateurs à ajouter des informations de licence à leurs dépôts - ce n'est certainement jamais un champ obligatoire - et fondamentalement, chaque site Web commercial prend une licence pour le contenu utilisateur via leurs termes de service dans plus ou moins le même langage que GitHub. Il serait particulièrement étrange de prétendre qu'un utilisateur pourrait mettre n'importe quelle disposition de licence dans son dépôt et que GitHub devrait tirer l'intégralité de son droit d'héberger et d'utiliser autrement le code d'une licence invisible. Cela sonne un peu comme les "mèmes" Facebook d'antan promettant aux utilisateurs que s'ils copient et collent simplement ces phrases magiques sur leur calendrier, alors Facebook ne pourra pas faire quelque chose ou autre avec leurs données ou leurs comptes.
Impact
Dans l'ensemble, on ne sait pas ce que les plaignants (le groupe réel, pas les avocats) gagneraient réellement à forcer Copilot à afficher les informations de licence pour toutes ses suggestions protégées par le droit d'auteur. En imaginant un monde où cela est possible et facile, est...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.