Developpez.com

Le Club des Développeurs et IT Pro

Le piratage d'une énorme base de données corporate cause une fuite des données personnelles

De 33 millions d'employés américains

Le 2017-03-15 17:55:53, par Coriolan, Expert éminent sénior
Cette semaine, un article intéressant de Tim Berners-Lee a listé les 3 menaces urgentes du web, parmi lesquelles figure le manque de contrôle sur nos données personnelles. Ces données sont stockées dans des silos centralisés, ce qui ne manque pas d’attirer des pirates et des agences gouvernementales. « Quand nos données sont conservées dans des silos propriétaires, hors de notre vue, nous perdons les bénéfices que nous pourrions en tirer », estime Tim Berners-Lee.

Et justement, les fuites de données deviennent de plus en plus fréquentes, la dernière en date est celle d’une base de données contenant des millions de comptes et appartenant à Dun & Bradstreet, un géant des services business qui a confirmé que la base de données lui appartient. Les 52 GB de données contiennent près de 33,7 millions d’adresses email uniques et d’autres informations de contact des employés de milliers d'entreprises, représentant une large part de la population corporate aux États-Unis.

Cette base de données est utilisée par les marketers pour cibler les gens avec des campagnes d’email et les autres méthodes de prospection. En effet, les données contiennent plusieurs types d’informations comme les noms complets, les fonctions, les adresses électroniques du travail et les numéros de téléphone. Les autres informations sont plus génériques et d’ordre public comme les adresses de bureaux, le nombre d’employés et d’autres descriptions de l’industrie de chaque entreprise (publicité, juridique, médias, l’audiovisuel et les télécommunications).

Ces données peuvent être achetées en grande quantité ou selon le type d’entreprises. Cependant, le prix de la base de données entière n’a pas été divulgué. Une brochure de 2015 montre que pour accéder à un demi-million de dossiers, il faudra débourser jusqu’à 200 000 dollars.

Dans un billet de blog, Troy Hunt a informé qu’il a reçu la base de données et a analysé son contenu. Il s’agit d’un fichier CSV de 52,2 GB contenant des données JSON semblables à ceux d’une base de données MongoDB.

Puisqu’il s’agit de données corporate, ils sont bien organisés. Chaque nom est bien casé et les adresses email sont bien formées. Il n’y a aucun signe qui indique que ces données ont été entrées par des utilisateurs ou les services de collecte de données en masse. De plus, les données sont 100 % US avec l’État de Californie le plus représenté (4 millions de comptes), suivi par New York (2,7 millions), Texas (2,6 millions de comptes), etc. Troy Hunt en a conclu que ces données ont été fournies en tant que feed des entreprises américaines et leurs employés. Précisément comme le genre de données que les gens auraient tendance à payer au prix fort vu la grande valeur des informations disponibles.

L’analyse de Hunt a montré que les organisations les plus présentes dans la fuite sont le Département de la justice américaine (101 013 employés mentionnés), suivi par le service de poste américaine (88 153). L’armée américaine, l’armée de l’air et le ministère des Anciens Combattants sont tous listés avec 76 379 dossiers. AT&T, Boeing, Dell, IBM et Xerox ont fait partie des entreprises les plus listées dans la base de données, avec des dizaines de milliers de dossiers de leurs employés.

Bien que vous pouvez rassembler ces données à partir des informations déjà disponibles au public, les avoir dans cette forme bien organisée et indexée pour les recherches lui procure plus de valeur. Cela rappelle qu’en effet, on a perdu le contrôle de nos données et notre confidentialité. La majorité des gens listés ici n’avaient aucune idée que leurs données sont vendues et achetées et ils n’ont aucun contrôle sur le processus.

Cette fuite, bien qu’étant gigantesque, on ne connait pas toujours qui l’a causée et comment elle a eu lieu. Un porte-parole de Dun & Bradshaw a informé que sa firme a analysé les données et a confirmé qu’il s’agit du type de format fourni par l’entreprise. Toutefois, il affirme que l’analyse a montré que les données n’ont pas été accédées ou exposées à partir du système de Dun & Bradstreet. Le porte-parole a informé également qu’une enquête interne a montré que les données appartiennent à la firme. Mais ces systèmes n’ont pas été infiltrés ou exposés.

L’entreprise a ajouté que ces données datent de six mois et ont été vendues en gros à des milliers d’entreprises. Pour cette raison, il sera difficile de traquer les firmes tierces qui auraient exposé une copie de la base de données. Dun & Bradstreet a tenté d’assurer ses clients et les utilisateurs dont les données ont été collectées ; elle a dit que les données contiennent généralement des informations de contact disponibles publiquement et utilisées pour des objectifs de vente et de marketing.

Toutefois, Troy Hunt n’est pas d’accord avec cet argument. « Quand vous avez les noms de quelqu’un, son occupation et son adresse email avec l’entreprise où il travaille, vous avez les informations nécessaires pour l’identifier, » dit-il dans son billet de blog. « Et c’est ce qui fait que cette collection de données est hautement volatile, la quantité de ces informations personnelles de beaucoup de gens et sur leurs rôles professionnels posent de nombreux risques pour les organisations impliquées ici. »

Ce type de données peut être utilisé par les marketeurs, mais aussi par des pirates qui ciblent leurs victimes avec des attaques d’hameçonnage. Ces données faciliteront surement ce type d’attaques. C’est une véritable mine d’or pour l’hameçonnage parce qu’elle contient une énorme quantité d’informations pratiques qui procureront plus d’authenticité ; cet aspect est particulièrement attractif pour les pirates et les agences gouvernementales.

Hunt a informé que les victimes n’ont aucune chance de réclamer la restitution de leurs données.

Source : Troy Hunt - The INQUIRER

Et vous ?

Qu'en pensez-vous ?

Voir aussi :

Tim Berners-Lee : le web tel que nous le connaissons est menacé par plusieurs dangers, notamment la perte de contrôle de nos données et les fake news
  Discussion forum
12 commentaires
  • NSKis
    En attente de confirmation mail
    "Les données de 33 millions d'employés américains sont en fuite"???

    J'adore cette notion de "données en fuite"!!! Si je comprends bien, ces données étaient tellement malheureuses qu'elles ont décidé de leur propre chef de faire le mur... C'est ça???

    ...

    Tiens... Après quelques heures, je constate que le titre a changé et fait mention de "pirates" à l'origine des fuites... Merci à l'auteur d'avoir pris en compte ma remarque (PS: Ma remarque ne se voulait pas une critique de l'auteur de la news mais relevait simplement un aspect amusant de la tournure de phrase choisie) mais franchement je préférais l'original... Elle était plus amusante!!!

    Encore toute mon admiration pour les auteurs qui publient sur ce site des news...
  • Jipété
    Expert éminent sénior
    Envoyé par arond

    Si c'est pas Sprign qui fait sa prière
  • dasdeb
    Membre actif
    Envoyé par arond
    Vous ne m'avez pas l'air de bonne humeur j'ai dis quelque chose qui vous a vexé ?

    Non, c'est juste que tu as écris "sa" au lieu de "ça" et que tu as oublié une virgule, ce qui change complètement le sens de ta phrase
    Envoyé par arond
    Si c'est pas Sprign qui fait sa prière de ne
    devrait être
    "Si c'est pas Spring qui fait ça, prière de ne..."
    Dans le premier cas, tu dis que Spring fait sa prière.
  • hotcryx
    Membre extrêmement actif
    Peut-être la conséquence des serveurs non sécurisés des Clintons.
    Certains login auraient pû être découverts...
    Mais on préfère mettre cela sur le dos des "nouveaux" hackers.

    Edit:
    J'ai du mal à croire à cela: "Il s’agit d’un fichier CSV de 52,2 GB contenant des données JSON".
    Déjà du JSON dans un CSV!
    Ensuite 52 Gb dans 1 fichier!
    Il n'y a pas de zip sur leur pc?
  • SofEvans
    Membre émérite
    Envoyé par hotcryx

    Edit:
    J'ai du mal à croire à cela: "Il s’agit d’un fichier CSV de 52,2 GB contenant des données JSON".
    Déjà du JSON dans un CSV!
    Ensuite 52 Gb dans 1 fichier!
    Il n'y a pas de zip sur leur pc?
    La BDD a été dumpé dans un fichier de type csv, donc il n'y a rien d'étonnant concernant la taille et le type dudit fichier.
    Ensuite, du JSON dans une BDD, je comprends que cela peut surprendre au début, mais cela n'est pas impossible ni forcement idiot.

    J'ai déjà eu un cas où il était préférable de stocker une chaîne en JSON dans une BDD plutôt que de décomposer le JSON pour le stocker, pour ensuite le recomposer et l'expoiter. Ceci dit, c'était un cas assez spécifique.
  • hotcryx
    Membre extrêmement actif
    Une vraie passoire les serveurs américains
  • wznnn
    Membre à l'essai
    Envoyé par Namica
    Bah, ils fournissaient sans doute déjà la CIA, la NSA, le FBI et autres.
    Alors maintenant tout le monde peut en profiter.
    Liberté, Égalité, Fraternité.
    Vive les portes dérobées, les vulnérabilités, les zerodays, et autres FAP (Fucking Bad Practices).
    t'es pas belge toi?
  • arond
    Membre expérimenté
    Envoyé par hotcryx
    Peut-être la conséquence des serveurs non sécurisés des Clintons.
    Certains login auraient pû être découverts...
    Mais on préfère mettre cela sur le dos des "nouveaux" hackers.

    Edit:
    J'ai du mal à croire à cela: "Il s’agit d’un fichier CSV de 52,2 GB contenant des données JSON".
    Déjà du JSON dans un CSV!
    Ensuite 52 Gb dans 1 fichier!
    Il n'y a pas de zip sur leur pc?
    En admettant qu'ils utilisent un Framework pour afficher leur donnée c'est pas idiot, par exemple avec Spring le Framework renvois et lis du JSON donc c'est surement mieux pour eux de le stocker comme sa ça évite de retraiter à chaque accès.
    Si c'est pas Sprign qui fait sa prière de ne
  • arond
    Membre expérimenté
    Envoyé par Jipété
    Vous ne m'avez pas l'air de bonne humeur j'ai dis quelque chose qui vous a vexé ?

  • arond
    Membre expérimenté
    Envoyé par dasdeb
    Non, c'est juste que tu as écris "sa" au lieu de "ça" et que tu as oublié une virgule, ce qui change complètement le sens de ta phrase

    devrait être
    "Si c'est pas Spring qui fait ça, prière de ne..."
    Dans le premier cas, tu dis que Spring fait sa prière.
    oups !

    Merci de la correction.