Le web scraping est une technique permettant l'extraction des données d'un site via un programme, un logiciel automatique ou un autre site. L'objectif est donc d'extraire le contenu d'une page d'un site de façon structurée. Le scraping permet ainsi de pouvoir réutiliser ces données. L'année dernière, la 9e cour d'appel des États-Unis a jugé que le web scraping de sites Web ne violait pas la CFAA (Computer Fraud and Abuse Act).
La décision est intervenue dans une bataille juridique qui a opposé LinkedIn, une société appartenant à Microsoft, à une petite société d'analyse de données appelée hiQ Labs.
HiQ effectue du web scraping de profils publics des utilisateurs de LinkedIn, puis les utilise pour aider les entreprises à mieux comprendre leurs propres effectifs. Après avoir toléré les activités de web scraping de hiQ pendant plusieurs années, LinkedIn a envoyé à la société une lettre de cessation et d'abstention en 2017 lui demandant de cesser de collecter des données à partir de profils LinkedIn. LinkedIn a notamment fait valoir que hiQ violait la Computer Fraud and Abuse Act, la principale loi antipiratage des États-Unis.
La Computer Fraud and Abuse Act (CFAA) est une loi du gouvernement fédéral américain mise en vigueur en 1986 qui porte sur la sécurité des systèmes d'information. Il s'agit d'un amendement à une loi sur les fraudes informatiques qui fait maintenant partie du Comprehensive Crime Control Act of 1984. Cette loi interdit tout accès à un ordinateur sans autorisation préalable ou tout accès qui excède les autorisations.
Cela représentait une menace existentielle pour hiQ car le site Web de LinkedIn est la principale source de données de hiQ sur les employés de ses clients. HiQ a donc poursuivi LinkedIn en justice, cherchant non seulement à déclarer que ses activités de web scraping ne constituaient pas un piratage, mais également une ordonnance interdisant à LinkedIn d’interférer.
Un tribunal de première instance s’est rangé du côté de hiQ en 2017. Puis en 2019, la Cour d’appel du 9e circuit a entériné la décision de la juridiction inférieure, estimant que la loi sur la fraude et les abus informatiques ne s’appliquait tout simplement pas aux informations accessibles au grand public.
« La CFAA a été promulguée pour empêcher toute intrusion intentionnelle dans l'ordinateur de quelqu'un d'autre, notamment le piratage informatique », a écrit un panel de trois juges. La cour a noté que lorsque les législateurs débattaient de cette loi, des analogies avec des crimes physiques tels que l'introduction par effraction ont été faites à plusieurs reprises. Du point de vue du neuvième circuit, cela implique que la CFAA ne s’applique qu’aux systèmes d’information ou informatiques qui étaient au départ privés, ce que les propriétaires de sites Web signalent généralement avec un mot de passe.
La cour a noté que, lorsque la CFAA a été adoptée, dans les années 80, elle ne s'appliquait qu'à certaines catégories d'ordinateurs contenant des données militaires, financières ou autres. « Aucun des ordinateurs auxquels la CFAA avait initialement été appliquée n'était accessible au grand public », écrit le tribunal. « Une autorisation affirmative quelconque était présumément requise ».
Lorsque la loi a été étendue à un plus grand nombre d'ordinateurs en 1996, un rapport du Sénat a déclaré que son objectif était « d'accroître la protection de la vie privée et la confidentialité des informations numériques ». En conséquence, le neuvième circuit explique que « l'interdiction des accès non autorisés est bien comprise comme s'appliquant uniquement aux informations privées - les informations définies comme privées par le biais d'une autorisation quelconque ».
HiQ a noté que LinkedIn acceptait tacitement ses activités de collecte de données depuis plusieurs années, au point où LinkedIn envoyait des représentants à des conférences hiQ où hiQ expliquait ouvertement que ses produits étaient basés sur les données de LinkedIn.
LinkedIn a fait valoir la nécessité de limiter la collecte de données pour protéger la vie privée de ses propres utilisateurs. Mais hiQ a rétorqué que les données n'appartenaient pas à LinkedIn, mais à ses utilisateurs, qui ont explicitement marqué les données comme étant publiques. HiQ ne collecte pas de données sur les profils LinkedIn non publics. HiQ indique également que LinkedIn n'a commencé à s'y opposer qu'au moment où LinkedIn a lancé ses propres outils d'analyse concurrençant ses offres.
Les retombées de la jurisprudence
Il s'agit d'une décision vraiment importante. Le tribunal a non seulement légalisé cette pratique, mais a également interdit aux concurrents de faire supprimer automatiquement les informations d'un site si le site est public. Le tribunal a confirmé la logique claire que l'entrée du bot de web scraping n'est pas juridiquement différente de l'entrée du navigateur. Dans les deux cas, « l'utilisateur » demande des données ouvertes.
Désormais, de nombreux propriétaires de sites tentent de mettre des obstacles techniques aux concurrents qui copient complètement leurs informations qui ne sont pas protégées par le droit d'auteur. Par exemple, les prix des billets, les lots de produits, les profils d'utilisateurs ouverts, etc. Certains sites considèrent que ces informations sont « les leurs » et considèrent le web scraping comme un « vol ». Légalement, le cas qui a opposé LinkedIn à hiQ peut faire office de jurisprudence aux États-Unis.
Lorsque la cour d'appel a confirmé une décision d'un tribunal inférieur qui interdit à LinkedIn d'interférer avec le web scraping de son site Web par hiQ, cela a modifié fondamentalement l'équilibre des pouvoirs dans le traitement de tels cas à l'avenir.
C'est peut-être une caractéristique spécifique de la législation américaine. Dans ce cas, hiQ a fait valoir que les mesures techniques de LinkedIn pour bloquer le scraping Web interfèrent avec les contrats de hiQ avec ses propres clients qui s'appuient sur ces données. Dans le jargon juridique, cela s'appelle « une ingérence malveillante dans un contrat », ce qui est interdit par la loi américaine.
En Russie, la protection de votre site contre les bots, y compris ceux qui effectuent du web scraping, est considérée comme une pratique normale, même si le propriétaire du site ne possède pas de droits de propriété intellectuelle sur les informations publiées (par exemple, les profils utilisateur).
Source : décision de justice
Et vous ?
Que pensez-vous du web scraping ?
Quelles seraient, selon vous, les retombées de la décision de justice opposant hiQ à LinkedIn ?
Quelle est la position de la législation française à ce sujet ?
Une décision de justice US a légalisé la collecte des données publiques d'un site pour les utiliser dans ses activités
Certains sites veulent se protéger en y mettant des moyens techniques
Une décision de justice US a légalisé la collecte des données publiques d'un site pour les utiliser dans ses activités
Certains sites veulent se protéger en y mettant des moyens techniques
Le , par Stéphane le calme
Une erreur dans cette actualité ? Signalez-nous-la !