IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

L'extraction automatique de données publiques sur le web est toujours autorisée
Une cour d'appel des États-Unis réaffirme la légalité du Web Scraping

Le , par Nancy Rey

252PARTAGES

4  0 
Une cour d'appel a statué hier que le web scraping, c'est-à-dire l'extraction automatique d'informations de sites web et leur stockage en vue d'une utilisation ultérieure, est légal, protégeant ainsi un outil utilisé par les chercheurs, mais portant un coup au site de réseautage social LinkedIn, propriété de Microsoft, qui affirmait que cette pratique mettait en danger la vie privée des utilisateurs. Bonne nouvelle donc pour les archivistes, les universitaires, les chercheurs et les journalistes : l'extraction de données accessibles au public est légale.


L’extraction automatique de données sur un site web public ne viole pas la loi américaine sur la fraude et les abus informatiques (CFAA : America's Computer Fraud and Abuse Act), a décidé lundi la cour d'appel pour le neuvième circuit des États-Unis (Ninth Circuit). La décision fait écho à la décision de la cour d'appel de 2019, qui a confirmé la décision de 2017 d'un tribunal inférieur dans l'affaire HiQ contre LinkedIn, selon laquelle la récolte des données de sites Web ne constitue pas un accès sans autorisation à un ordinateur protégé.

L'affaire a débuté en Californie en 2017 lorsque HiQ, une société d'analyse de l'emploi, a intenté une action en justice pour contester les efforts juridiques et techniques de LinkedIn pour empêcher HiQ de copier les données de profil public des utilisateurs de LinkedIn. HiQ utilise des données collectées à partir des sections publiques de LinkedIn pour créer des rapports pour les entreprises clientes, identifiant lesquels de leurs employés sont les plus susceptibles de démissionner et lesquels sont les plus susceptibles d'être ciblés par les recruteurs.

Le juge de district chargé de l'affaire a accordé une injonction préliminaire à HiQ qui interdisait à LinkedIn d'interférer avec le raclage de données de HiQ pendant que l'affaire progressait. Il a décidé que cela n'avait aucun sens d'appliquer la CFAA (une loi qui criminalise l'accès à un ordinateur protégé "sans autorisation" ou d'une manière qui "dépasse l'accès autorisé" à la collecte de données publiques sur le site Web de LinkedIn. LinkedIn a néanmoins fait appel et, deux ans plus tard, le neuvième circuit s'est rangé du côté de HiQ et a renvoyé l'affaire au Northern District of California pour qu'elle soit résolue.

Sans se décourager, LinkedIn a fait appel devant la Cour suprême des États-Unis. En mars 2020, elle a demandé à la Cour suprême d'examiner la décision du Ninth Circuit. L'entreprise a fait valoir que la mise en place d'obstacles techniques au grattage du Web, conjuguée à l'envoi d'une lettre de cessation et d'abstention, devrait être considérée comme un mécanisme d'autorisation. En effet, le site de médias sociaux détenu par Microsoft souhaite bénéficier des avantages concurrentiels d'un accès contrôlé sans en subir les conséquences, à savoir l'invisibilité pour le trafic des moteurs de recherche.

« En vertu de la règle du neuvième circuit, toutes les entreprises dont la partie publique du site Web fait partie intégrante de leurs activités, qu'il s'agisse de détaillants en ligne comme Ticketmaster et Amazon ou de plateformes de réseaux sociaux comme Twitter, seront exposées aux robots envahissants déployés par les resquilleurs, à moins qu'elles ne placent ces sites Web entièrement derrière des barricades de mots de passe… Mais si cela se produit, ces sites web ne seront plus indexables par les moteurs de recherche, ce qui rendra les informations moins accessibles à la découverte par le principal moyen par lequel les gens obtiennent des informations sur Internet », ont écrit les avocats de LinkedIn dans la requête de l'entreprise qui sera entendue par la Cour suprême.

Le 3 juin 2021, la Cour suprême, dans une affaire connexe, Van Buren contre United States, a restreint le champ d'application de la CFAA, qui avait été critiquée pendant des années pour ne pas avoir défini les expressions "sans autorisation" et "dépasse l'accès autorisé". Dans l'affaire Van Buren, la haute cour a déclaré que le fait d'enfreindre les conditions d'utilisation d'un service ne constituait pas en soi un "accès non autorisé" au sens du CFAA. Cependant, elle a laissé planer une certaine ambiguïté sur la question de savoir si le contrôle basé sur les justificatifs d'identité est le seul moyen de déterminer si l'accès était "sans autorisation".

Puis, deux semaines plus tard, la Cour suprême a renvoyé l'affaire HiQ contre LinkedIn au neuvième circuit pour qu'il la réexamine à la lumière de la manière dont l'arrêt Van Buren avait remodelé la responsabilité au titre du CFAA. Aujourd'hui, la cour d'appel a réexaminé sa décision antérieure et est parvenue à la même conclusion qu'il y a deux ans, quoique renforcée par l'affaire Van Buren. « L'une des caractéristiques des sites Web publics est que leurs sections accessibles au public ne sont soumises à aucune restriction d'accès ; au contraire, ces sections sont ouvertes à toute personne disposant d'un navigateur Web », indique la décision du neuvième circuit .

En d'autres termes, si l'on applique l'analogie des "portes" à un ordinateur hébergeant des pages Web accessibles au public, cet ordinateur n'a pas érigé de portes à soulever ou à abaisser en premier lieu. Van Buren renforce donc notre conclusion selon laquelle le concept de 'sans autorisation' ne s'applique pas aux sites web publics". L'arrêt ne résout cependant pas le différend entre HiQ et LinkedIn. Il empêche simplement LinkedIn de bloquer la collecte de données publiques par HiQ et de déposer une plainte contre la société d'analyse en vertu de la CFAA. Les questions relatives à la concurrence déloyale, à la protection de la vie privée et à la législation nationale n'ont pas encore été abordées.

Dans une déclaration, un porte-parole de LinkedIn a indiqué que la société avait l'intention de continuer à se battre devant les tribunaux. « Nous sommes déçus, mais il s'agissait d'une décision préliminaire et l'affaire est loin d'être terminée. Nous continuerons à nous battre pour protéger la capacité de nos membres à contrôler les informations qu'ils rendent disponibles sur LinkedIn », a déclaré un porte-parole de la société.

Le scraping n'est pas nécessairement une activité illicite : les moteurs de recherche comme Google utilisent le scraping pour recueillir automatiquement les adresses et les descriptions de pages Web à inclure dans les résultats de recherche. Le scraping peut également être utilisé pour collecter et traiter plus efficacement des données dans le cadre d'études scientifiques. Une étude gouvernementale britannique en cours sur les décès dus aux drogues opioïdes a utilisé le scraping pour extraire des informations des rapports des coroners à un rythme de plus de 1 000 rapports par heure, contre environ 25 rapports par heure lorsque la tâche était effectuée manuellement. Bien que LinkedIn reconnaisse que le scraping peut être utilisé à des fins légitimes, il affirme que le scraping des profils LinkedIn effectué sans l'approbation de la société met en danger la vie privée des utilisateurs.

Sources : Décision de justice

Et vous ?

Que pensez-vous du Web scraping ? L'avez-vous déjà fait ?
Le Web scraping sur des informations explicitement définies comme étant publiques doit-il être prohibé ? Pourquoi ?

Voir aussi :

Une décision de justice US a légalisé la collecte des données publiques d'un site pour les utiliser dans ses activités, certains sites veulent se protéger en y mettant des moyens techniques

Facebook : les informations personnelles de plus de 1,5 milliard d'utilisateurs vendues sur un forum de pirates, nom, adresse électronique, numéro de téléphone, localisation sont divulguées

Collecter des données publiques d'un site pour les utiliser dans ses activités n'est probablement pas illégal, d'après une décision de justice

Le Web scraping de 700 millions d'utilisateurs de LinkedIn a été fait « pour le fun », explique le hacker

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de smarties
Membre émérite https://www.developpez.com
Le 19/04/2022 à 12:17
Que pensez-vous du Web scraping ? L'avez-vous déjà fait ?
Tant que les données sont publiques on ne peut pas limiter l'accès de toute façon.
Je l'ai déjà fait pour améliorer les données consultées et la recherche (en pro et en perso)

Le Web scraping sur des informations explicitement définies comme étant publiques doit-il être prohibé ? Pourquoi ?
Non, car ça tuerait l'innovation.
Il y a assez de choses propriétaires/fermées qui nous mettent aussi des freins sur comment on veut voir ses données. Il y a quelque temps je m'étais fait un scrapper pour récupérer des articles et les lire sur ma liseuse.
1  0 
Avatar de sanderbe
Membre éclairé https://www.developpez.com
Le 22/04/2022 à 23:31
Bonsoir

L'extraction automatique de données publiques sur le web est toujours autorisée, une cour d'appel des États-Unis réaffirme la légalité du Web Scraping

Que pensez-vous du Web scraping ?
Quand la donnée est partagée de manière consentie le scraping ne relève pas du piratage.

Quand la donnée est partagée de manière non consentie, le scraping du cas de linkedin EST du piratage. Linkedin a dans son organisation, participé indirectement "au piratage" via le scraping, en "manipulant" les utilisateurs dans le partage de leurs data.

L'avez-vous déjà fait ?
Chercher des coordonnées sur internet relève du scraping ... Déduire un numéro de téléphone sur une plage à partir d'un autre ...

Le Web scraping sur des informations explicitement définies comme étant publiques doit-il être prohibé ?
non

Pourquoi ?
Si la data est publique , c'est que celle ci a consentie a être partagée.
0  0 
Avatar de petitours
Membre expérimenté https://www.developpez.com
Le 23/04/2022 à 0:07
Citation Envoyé par sanderbe Voir le message
Si la data est publique , c'est que celle ci a consentie a être partagée.

partagée ne veut pas dire exploitée.

Çà vous arrange bien qu'une montagne d'utilisateurs du web soit naïfs, inconscients ou se sont trompés mais votre principe/justificatif est beurk.
0  0 
Avatar de sanderbe
Membre éclairé https://www.developpez.com
Le 23/04/2022 à 0:16
Bonjour,

Citation Envoyé par petitours Voir le message
partagée ne veut pas dire exploitée.

Çà vous arrange bien qu'une montagne d'utilisateurs du web soit naïfs, inconscients ou se sont trompés mais votre principe/justificatif est beurk.
Comme je le dis plus haut : " Linkedin a dans son organisation, participé indirectement "au piratage" via le scraping, en "manipulant" les utilisateurs dans le partage de leurs data. " .

C'est dans l’intérêt de Linkedin d'avoir un défaut de communication .

Dans le fond je suis tout à fait d'accord avec toi. Des boites comme Linkedin et autre profitent de la naïveté de leurs utilisateurs.
0  0 
Avatar de petitours
Membre expérimenté https://www.developpez.com
Le 23/04/2022 à 0:25
pour ma part je ne vois pas le problème dans l’accès au données publiques, je vois le problème dans ce qui en est fait

Celui qui récupère pleins de données pour étudier un domaine, imaginer un nouveau truc, comprendre pour résoudre des problèmes, très bien.
Celui qui récupère les mêmes données pour faire de la pub ciblée, faire suer les gens en démarchage ou truc du genre est à jeter aux méduses.
0  0