Une cour d'appel a statué hier que le web scraping, c'est-à-dire l'extraction automatique d'informations de sites web et leur stockage en vue d'une utilisation ultérieure, est légal, protégeant ainsi un outil utilisé par les chercheurs, mais portant un coup au site de réseautage social LinkedIn, propriété de Microsoft, qui affirmait que cette pratique mettait en danger la vie privée des utilisateurs. Bonne nouvelle donc pour les archivistes, les universitaires, les chercheurs et les journalistes : l'extraction de données accessibles au public est légale.
L’extraction automatique de données sur un site web public ne viole pas la loi américaine sur la fraude et les abus informatiques (CFAA : America's Computer Fraud and Abuse Act), a décidé lundi la cour d'appel pour le neuvième circuit des États-Unis (Ninth Circuit). La décision fait écho à la décision de la cour d'appel de 2019, qui a confirmé la décision de 2017 d'un tribunal inférieur dans l'affaire HiQ contre LinkedIn, selon laquelle la récolte des données de sites Web ne constitue pas un accès sans autorisation à un ordinateur protégé.
L'affaire a débuté en Californie en 2017 lorsque HiQ, une société d'analyse de l'emploi, a intenté une action en justice pour contester les efforts juridiques et techniques de LinkedIn pour empêcher HiQ de copier les données de profil public des utilisateurs de LinkedIn. HiQ utilise des données collectées à partir des sections publiques de LinkedIn pour créer des rapports pour les entreprises clientes, identifiant lesquels de leurs employés sont les plus susceptibles de démissionner et lesquels sont les plus susceptibles d'être ciblés par les recruteurs.
Le juge de district chargé de l'affaire a accordé une injonction préliminaire à HiQ qui interdisait à LinkedIn d'interférer avec le raclage de données de HiQ pendant que l'affaire progressait. Il a décidé que cela n'avait aucun sens d'appliquer la CFAA (une loi qui criminalise l'accès à un ordinateur protégé "sans autorisation" ou d'une manière qui "dépasse l'accès autorisé" à la collecte de données publiques sur le site Web de LinkedIn. LinkedIn a néanmoins fait appel et, deux ans plus tard, le neuvième circuit s'est rangé du côté de HiQ et a renvoyé l'affaire au Northern District of California pour qu'elle soit résolue.
Sans se décourager, LinkedIn a fait appel devant la Cour suprême des États-Unis. En mars 2020, elle a demandé à la Cour suprême d'examiner la décision du Ninth Circuit. L'entreprise a fait valoir que la mise en place d'obstacles techniques au grattage du Web, conjuguée à l'envoi d'une lettre de cessation et d'abstention, devrait être considérée comme un mécanisme d'autorisation. En effet, le site de médias sociaux détenu par Microsoft souhaite bénéficier des avantages concurrentiels d'un accès contrôlé sans en subir les conséquences, à savoir l'invisibilité pour le trafic des moteurs de recherche.
« En vertu de la règle du neuvième circuit, toutes les entreprises dont la partie publique du site Web fait partie intégrante de leurs activités, qu'il s'agisse de détaillants en ligne comme Ticketmaster et Amazon ou de plateformes de réseaux sociaux comme Twitter, seront exposées aux robots envahissants déployés par les resquilleurs, à moins qu'elles ne placent ces sites Web entièrement derrière des barricades de mots de passe… Mais si cela se produit, ces sites web ne seront plus indexables par les moteurs de recherche, ce qui rendra les informations moins accessibles à la découverte par le principal moyen par lequel les gens obtiennent des informations sur Internet », ont écrit les avocats de LinkedIn dans la requête de l'entreprise qui sera entendue par la Cour suprême.
Le 3 juin 2021, la Cour suprême, dans une affaire connexe, Van Buren contre United States, a restreint le champ d'application de la CFAA, qui avait été critiquée pendant des années pour ne pas avoir défini les expressions "sans autorisation" et "dépasse l'accès autorisé". Dans l'affaire Van Buren, la haute cour a déclaré que le fait d'enfreindre les conditions d'utilisation d'un service ne constituait pas en soi un "accès non autorisé" au sens du CFAA. Cependant, elle a laissé planer une certaine ambiguïté sur la question de savoir si le contrôle basé sur les justificatifs d'identité est le seul moyen de déterminer si l'accès était "sans autorisation".
Puis, deux semaines plus tard, la Cour suprême a renvoyé l'affaire HiQ contre LinkedIn au neuvième circuit pour qu'il la réexamine à la lumière de la manière dont l'arrêt Van Buren avait remodelé la responsabilité au titre du CFAA. Aujourd'hui, la cour d'appel a réexaminé sa décision antérieure et est parvenue à la même conclusion qu'il y a deux ans, quoique renforcée par l'affaire Van Buren. « L'une des caractéristiques des sites Web publics est que leurs sections accessibles au public ne sont soumises à aucune restriction d'accès ; au contraire, ces sections sont ouvertes à toute personne disposant d'un navigateur Web », indique la décision du neuvième circuit .
En d'autres termes, si l'on applique l'analogie des "portes" à un ordinateur hébergeant des pages Web accessibles au public, cet ordinateur n'a pas érigé de portes à soulever ou à abaisser en premier lieu. Van Buren renforce donc notre conclusion selon laquelle le concept de 'sans autorisation' ne s'applique pas aux sites web publics". L'arrêt ne résout cependant pas le différend entre HiQ et LinkedIn. Il empêche simplement LinkedIn de bloquer la collecte de données publiques par HiQ et de déposer une plainte contre la société d'analyse en vertu de la CFAA. Les questions relatives à la concurrence déloyale, à la protection de la vie privée et à la législation nationale n'ont pas encore été abordées.
Dans une déclaration, un porte-parole de LinkedIn a indiqué que la société avait l'intention de continuer à se battre devant les tribunaux. « Nous sommes déçus, mais il s'agissait d'une décision préliminaire et l'affaire est loin d'être terminée. Nous continuerons à nous battre pour protéger la capacité de nos membres à contrôler les informations qu'ils rendent disponibles sur LinkedIn », a déclaré un porte-parole de la société.
Le scraping n'est pas nécessairement une activité illicite : les moteurs de recherche comme Google utilisent le scraping pour recueillir automatiquement les adresses et les descriptions de pages Web à inclure dans les résultats de recherche. Le scraping peut également être utilisé pour collecter et traiter plus efficacement des données dans le cadre d'études scientifiques. Une étude gouvernementale britannique en cours sur les décès dus aux drogues opioïdes a utilisé le scraping pour extraire des informations des rapports des coroners à un rythme de plus de 1 000 rapports par heure, contre environ 25 rapports par heure lorsque la tâche était effectuée manuellement. Bien que LinkedIn reconnaisse que le scraping peut être utilisé à des fins légitimes, il affirme que le scraping des profils LinkedIn effectué sans l'approbation de la société met en danger la vie privée des utilisateurs.
Sources : Décision de justice
Et vous ?
Que pensez-vous du Web scraping ? L'avez-vous déjà fait ?
Le Web scraping sur des informations explicitement définies comme étant publiques doit-il être prohibé ? Pourquoi ?
Voir aussi :
Une décision de justice US a légalisé la collecte des données publiques d'un site pour les utiliser dans ses activités, certains sites veulent se protéger en y mettant des moyens techniques
Facebook : les informations personnelles de plus de 1,5 milliard d'utilisateurs vendues sur un forum de pirates, nom, adresse électronique, numéro de téléphone, localisation sont divulguées
Collecter des données publiques d'un site pour les utiliser dans ses activités n'est probablement pas illégal, d'après une décision de justice
Le Web scraping de 700 millions d'utilisateurs de LinkedIn a été fait « pour le fun », explique le hacker
L'extraction automatique de données publiques sur le web est toujours autorisée
Une cour d'appel des États-Unis réaffirme la légalité du Web Scraping
L'extraction automatique de données publiques sur le web est toujours autorisée
Une cour d'appel des États-Unis réaffirme la légalité du Web Scraping
Le , par Nancy Rey
Une erreur dans cette actualité ? Signalez-nous-la !