Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Une décision de justice US a légalisé la collecte des données publiques d'un site pour les utiliser dans ses activités
Certains sites veulent se protéger en y mettant des moyens techniques

Le , par Stéphane le calme

422PARTAGES

4  0 
Le web scraping est une technique permettant l'extraction des données d'un site via un programme, un logiciel automatique ou un autre site. L'objectif est donc d'extraire le contenu d'une page d'un site de façon structurée. Le scraping permet ainsi de pouvoir réutiliser ces données. L'année dernière, la 9e cour d'appel des États-Unis a jugé que le web scraping de sites Web ne violait pas la CFAA (Computer Fraud and Abuse Act).

La décision est intervenue dans une bataille juridique qui a opposé LinkedIn, une société appartenant à Microsoft, à une petite société d'analyse de données appelée hiQ Labs.

HiQ effectue du web scraping de profils publics des utilisateurs de LinkedIn, puis les utilise pour aider les entreprises à mieux comprendre leurs propres effectifs. Après avoir toléré les activités de web scraping de hiQ pendant plusieurs années, LinkedIn a envoyé à la société une lettre de cessation et d'abstention en 2017 lui demandant de cesser de collecter des données à partir de profils LinkedIn. LinkedIn a notamment fait valoir que hiQ violait la Computer Fraud and Abuse Act, la principale loi antipiratage des États-Unis.

La Computer Fraud and Abuse Act (CFAA) est une loi du gouvernement fédéral américain mise en vigueur en 1986 qui porte sur la sécurité des systèmes d'information. Il s'agit d'un amendement à une loi sur les fraudes informatiques qui fait maintenant partie du Comprehensive Crime Control Act of 1984. Cette loi interdit tout accès à un ordinateur sans autorisation préalable ou tout accès qui excède les autorisations.

Cela représentait une menace existentielle pour hiQ car le site Web de LinkedIn est la principale source de données de hiQ sur les employés de ses clients. HiQ a donc poursuivi LinkedIn en justice, cherchant non seulement à déclarer que ses activités de web scraping ne constituaient pas un piratage, mais également une ordonnance interdisant à LinkedIn d’interférer.

Un tribunal de première instance s’est rangé du côté de hiQ en 2017. Puis en 2019, la Cour d’appel du 9e circuit a entériné la décision de la juridiction inférieure, estimant que la loi sur la fraude et les abus informatiques ne s’appliquait tout simplement pas aux informations accessibles au grand public.

« La CFAA a été promulguée pour empêcher toute intrusion intentionnelle dans l'ordinateur de quelqu'un d'autre, notamment le piratage informatique », a écrit un panel de trois juges. La cour a noté que lorsque les législateurs débattaient de cette loi, des analogies avec des crimes physiques tels que l'introduction par effraction ont été faites à plusieurs reprises. Du point de vue du neuvième circuit, cela implique que la CFAA ne s’applique qu’aux systèmes d’information ou informatiques qui étaient au départ privés, ce que les propriétaires de sites Web signalent généralement avec un mot de passe.

La cour a noté que, lorsque la CFAA a été adoptée, dans les années 80, elle ne s'appliquait qu'à certaines catégories d'ordinateurs contenant des données militaires, financières ou autres. « Aucun des ordinateurs auxquels la CFAA avait initialement été appliquée n'était accessible au grand public », écrit le tribunal. « Une autorisation affirmative quelconque était présumément requise ».

Lorsque la loi a été étendue à un plus grand nombre d'ordinateurs en 1996, un rapport du Sénat a déclaré que son objectif était « d'accroître la protection de la vie privée et la confidentialité des informations numériques ». En conséquence, le neuvième circuit explique que « l'interdiction des accès non autorisés est bien comprise comme s'appliquant uniquement aux informations privées - les informations définies comme privées par le biais d'une autorisation quelconque ».


HiQ a noté que LinkedIn acceptait tacitement ses activités de collecte de données depuis plusieurs années, au point où LinkedIn envoyait des représentants à des conférences hiQ où hiQ expliquait ouvertement que ses produits étaient basés sur les données de LinkedIn.

LinkedIn a fait valoir la nécessité de limiter la collecte de données pour protéger la vie privée de ses propres utilisateurs. Mais hiQ a rétorqué que les données n'appartenaient pas à LinkedIn, mais à ses utilisateurs, qui ont explicitement marqué les données comme étant publiques. HiQ ne collecte pas de données sur les profils LinkedIn non publics. HiQ indique également que LinkedIn n'a commencé à s'y opposer qu'au moment où LinkedIn a lancé ses propres outils d'analyse concurrençant ses offres.

Les retombées de la jurisprudence

Il s'agit d'une décision vraiment importante. Le tribunal a non seulement légalisé cette pratique, mais a également interdit aux concurrents de faire supprimer automatiquement les informations d'un site si le site est public. Le tribunal a confirmé la logique claire que l'entrée du bot de web scraping n'est pas juridiquement différente de l'entrée du navigateur. Dans les deux cas, « l'utilisateur » demande des données ouvertes.

Désormais, de nombreux propriétaires de sites tentent de mettre des obstacles techniques aux concurrents qui copient complètement leurs informations qui ne sont pas protégées par le droit d'auteur. Par exemple, les prix des billets, les lots de produits, les profils d'utilisateurs ouverts, etc. Certains sites considèrent que ces informations sont « les leurs » et considèrent le web scraping comme un « vol ». Légalement, le cas qui a opposé LinkedIn à hiQ peut faire office de jurisprudence aux États-Unis.

Lorsque la cour d'appel a confirmé une décision d'un tribunal inférieur qui interdit à LinkedIn d'interférer avec le web scraping de son site Web par hiQ, cela a modifié fondamentalement l'équilibre des pouvoirs dans le traitement de tels cas à l'avenir.

C'est peut-être une caractéristique spécifique de la législation américaine. Dans ce cas, hiQ a fait valoir que les mesures techniques de LinkedIn pour bloquer le scraping Web interfèrent avec les contrats de hiQ avec ses propres clients qui s'appuient sur ces données. Dans le jargon juridique, cela s'appelle « une ingérence malveillante dans un contrat », ce qui est interdit par la loi américaine.

En Russie, la protection de votre site contre les bots, y compris ceux qui effectuent du web scraping, est considérée comme une pratique normale, même si le propriétaire du site ne possède pas de droits de propriété intellectuelle sur les informations publiées (par exemple, les profils utilisateur).

Source : décision de justice

Et vous ?

Que pensez-vous du web scraping ?
Quelles seraient, selon vous, les retombées de la décision de justice opposant hiQ à LinkedIn ?
Quelle est la position de la législation française à ce sujet ?

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de Vulcania
Membre éclairé https://www.developpez.com
Le 30/01/2020 à 9:04
Citation Envoyé par xXxNeWgEnErAtIoN Voir le message
Et alors ? C'est pas parce qu'elles sont publiques qu'elles devraient être libre de droits.

J'adore les informaticiens qui protègent leurs projets avec des licences toutes plus folles les unes que les autres, par contre sur les données alors nan tout le monde peut y toucher.

Juste que quand ça vous arrange on vous entend beaucoup moins.
Non pas que je prône le non droit sur les données, mais à partir du moment où tu les laisses sur la place publique, il n'y a plus de contrôle possible. Et c'est pas comme si les utilisateurs ne pouvaient pas bloquer ces accès, et LinkedIn était au courant et y participait depuis des années.

Et j'aime bien entendre que les "informaticiens" sont juste des hypocrites, alors qu'une vaste majorité des technologies permettant d'envoyer ton message sont open source...
5  0 
Avatar de walfrat
Membre confirmé https://www.developpez.com
Le 30/01/2020 à 9:10
Le problème ça reste surtout pourquoi ils font ça ? J'ai pas spécialement envie que chacune de mes activités sur le net, même publiés sous mon vrai nom, atterrisse directement dans la boîte mail des RH et de mon manager grâce à la magie du web scraping et de l'analyse de données.

Après franchement, comme dit dans l'article, LinkedIn n'a lancé cette bataille judiciaire que quand il a commencé à lancer ces propres outils alors que jusqu'ici il collaborait ouvertement avec hiQ. J'imagine que quand tu utilises un tribunal pour ce genre de coup bas, certains juges peuvent ne pas apprécier. D'autant que côté USA, le nombre de procès qu'il y a eu juste pour couler des petites structures le temps du procès, ça ne manque pas.
3  0 
Avatar de Edrixal
Membre éprouvé https://www.developpez.com
Le 30/01/2020 à 9:58
Citation Envoyé par walfrat Voir le message
Le problème ça reste surtout pourquoi ils font ça ? J'ai pas spécialement envie que chacune de mes activités sur le net, même publiés sous mon vrai nom, atterrisse directement dans la boîte mail des RH et de mon manager grâce à la magie du web scraping et de l'analyse de données.

Après franchement, comme dit dans l'article, LinkedIn n'a lancé cette bataille judiciaire que quand il a commencé à lancer ces propres outils alors que jusqu'ici il collaborait ouvertement avec hiQ. J'imagine que quand tu utilises un tribunal pour ce genre de coup bas, certains juges peuvent ne pas apprécier. D'autant que côté USA, le nombre de procès qu'il y a eu juste pour couler des petites structures le temps du procès, ça ne manque pas.
Parce que tu crois que les RH ne vont pas scruter tes comptes sur les réseaux sociaux ?

J'ai eu un ami qui n'arrivais pas à trouver un boulot ou à en garder un au delà de la période d’essais. Bizarrement une fois qu'il à nettoyer ses comptes de toutes les photos de soirée des propos raciste et qu'il à privatiser la visibilité de sont FB, il à enfin pu décrocher un CDI.
Coïncidence peut être, ou peut être tout simplement que les employeurs fouille autant que possible la vie de leur employés.

C'est à toi de maitriser au mieux ce que tu laisse comme trace sur le net si tu veut pas être traquer de partout et que ta vie internet ne soit rendu publique. Ses entreprises ne font que profité de ce que tu leur offre gracieusement.
3  0 
Avatar de lsbkf
Membre habitué https://www.developpez.com
Le 30/01/2020 à 10:54
Citation Envoyé par Edrixal Voir le message
Parce que tu crois que les RH ne vont pas scruter tes comptes sur les réseaux sociaux ?
Il y a des gens qui ont le même nom + prénom que moi sur internet. Je trouve que c'est extrêmement débile de tenter de scruter les réseaux sociaux comme ça, mais bon après tout les RH ne sont pas en manques de techniques douteuses.
1  0 
Avatar de Edrixal
Membre éprouvé https://www.developpez.com
Le 30/01/2020 à 11:16
Citation Envoyé par lsbkf Voir le message
Il y a des gens qui ont le même nom + prénom que moi sur internet. Je trouve que c'est extrêmement débile de tenter de scruter les réseaux sociaux comme ça, mais bon après tout les RH ne sont pas en manques de techniques douteuses.
Parce que tu crois qu'ils regarde que le nom et prénom?
Adresse Email, numéro de téléphone, photo (la recherche par photo existe depuis pas mal de temps maintenant ), mot clé ou juste lorsque tu entre un ou une collègue en amis sur un réseau social ça peut suffire pour te trouver.

Et c'est pas débile en soit. Beaucoup de personne balance toute leur vie privée sur les réseaux sociaux. Sa permet de savoir à qui tu à affaire, si ses idées correspondent à celle de ta boite, si la personne peut présenter un risque pour l'image de la boite, ect...
Au delà de ça, ils peuvent aussi déterminer si tu compte vraiment rester dans la boite, si t'es quelqu'un de fiable, si t'es du genre à cracher sur la direction, ect...

Bien sur si tu ne met rien sur les réseaux sociaux et que tu n'est quasi pas sur internet, ça ne leur servira pas beaucoup. Mais c'est loin d'être le cas de tous.
0  0 
Avatar de Citrax
Membre averti https://www.developpez.com
Le 31/01/2020 à 22:37
C'est totalement nul et le combat s'annonce tres tordu,
Mais les gens etaient prevenus depuis des années que TOUT ce qui tombait sur le net, restait sur le NET eternellement.

Alors ou est la logique si les cannards qui ont laissé poussé leur plumes s'etonnent de se faire plumer dans la douleur a present !?
D'autant que fait en douce par fcbk, amstramgram, twiteur, et cie ca ne les derange pas si ouvertement tous les jours qui passent.
Hypocrisie de ces personnes !

Les seuls qui peuvent la ramener ce sont ceux qui ne balancent rien de leur vie privé sur le net et ont encore a coeur leur anonymat. De quel droit devraient ils etre retrouvé indirectement par telle ou telle boite sauvage ?
Parce que malheureusement il est impossible de rester 100% invisible a present : metro, aeroport, radars, smartphones, cookies, ...........on est fliqué partout, mais la ce n'est pas de notre fait* !

Faudra t'il qu'une partie de l'humanité se promene masquée pour vivre en PAIX ???
0  0 
Avatar de xXxNeWgEnErAtIoN
Inactif https://www.developpez.com
Le 30/01/2020 à 12:07
Citation Envoyé par Vulcania Voir le message
Non pas que je prône le non droit sur les données, mais à partir du moment où tu les laisses sur la place publique, il n'y a plus de contrôle possible. Et c'est pas comme si les utilisateurs ne pouvaient pas bloquer ces accès, et LinkedIn était au courant et y participait depuis des années.

Et j'aime bien entendre que les "informaticiens" sont juste des hypocrites, alors qu'une vaste majorité des technologies permettant d'envoyer ton message sont open source...
Ton argument ne tient pas, certains projets sont accessibles depuis git hub par exemple.

Ça reste des données accessibles au publique. Pourtant ya toujours une licence pourrie en haut du fichier.
1  4 
Avatar de xXxNeWgEnErAtIoN
Inactif https://www.developpez.com
Le 30/01/2020 à 7:34
Citation Envoyé par Neckara Voir le message
Ce sont des données publiques dont il est question ici...
Et alors ? C'est pas parce qu'elles sont publiques qu'elles devraient être libre de droits.

J'adore les informaticiens qui protègent leurs projets avec des licences toutes plus folles les unes que les autres, par contre sur les données alors nan tout le monde peut y toucher.

Juste que quand ça vous arrange on vous entend beaucoup moins.
1  5