Open data : neuf bases de données de référence mises à la disposition du public
Y compris le registre des entreprises et la base adresse nationale

Le , par Michael Guilloux, Chroniqueur Actualités
Lesquelles de ces bases de données vous semblent utiles pour vos applications ?
La mission Etalab fait partie de la Direction interministérielle du numérique et du système d’information et de communication de l’État (DINSIC), et c'est elle qui coordonne la politique d’ouverture et de partage des données publiques (open data).

Du 29 septembre au 20 octobre 2016, la mission Etalab a organisé une consultation sur la mise en œuvre du Service public de la donnée. Rappelons-le, ce service a été créé par l’Article 14 de la loi pour une République numérique. Il vise à mettre à la disposition du public, les jeux de données de référence qui présentent le plus fort impact économique et social, en vue de faciliter leur réutilisation.

La consultation organisée l’année dernière a vu la contribution de 160 personnes (secteur public, associations, entreprises et particuliers) et a permis de valider la première liste de données de références à rendre publiques. Il s'agissait notamment :

  • du Registre des entreprises (base SIRENE) : un jeu de données qui permet d’accéder aux 9 millions d’entreprises et 10 millions d’établissements actifs du répertoire Sirene de l’Insee ;

  • du répertoire national des associations (RNA) : il contient toutes les associations de France, dont le siège est déclaré en métropole ou dans les départements d’outre-mer, sauf dans les départements de la Moselle, du Bas-Rhin et du Haut-Rhin, qui relèvent du régime du Concordat. Le RNA contient également les associations reconnues d’utilité publique ;

  • du Cadastre (le plan cadastral informatisé) ;

  • du référentiel à grande échelle (RGE) : il est composé de cinq composantes (orthophotographique, topographique, altimétrique, parcellaire et adresse) qui fournissent des informations géographiques cohérentes entre elles ;

  • du registre parcellaire graphique (RPG) : une base de données géographiques servant de référence à l'instruction des aides de la politique agricole commune ;

  • de la base adresse nationale (BAN), qui a pour but de référencer l'intégralité des adresses du territoire français. Elle contient la position géographique de plus de 25 millions d'adresses.

Par un décret signé le 14 mars dernier, cette liste a été complétée par :

  • la base de données de l'organisation administrative de l'État, qui comprend toutes les institutions régies par la Constitution de la Ve République et les administrations qui en dépendent, soit environ 6000 organismes ;

  • le répertoire opérationnel des métiers et des emplois (ROME) : construit par Pôle Emploi, il est décrit comme un outil au service de la mobilité professionnelle et du rapprochement entre offres et candidats ;

  • le code officiel géographique (COG), qui rassemble les codes et libellés des communes, des cantons, des arrondissements, des départements, des régions, des collectivités d'outre-mer et des pays et territoires étrangers au 1er janvier de chaque année.


Le service public de la donnée s'ouvre officiellement avec les neuf bases de données de référence mentionnées. Il faut toutefois noter que les données du plan cadastral informatisé ne sont pas encore disponibles, mais devraient l’être bientôt.


Les données et métadonnées sont disponibles sous différents formats selon le cas : CSV, PDF, XML, HTML, TXT, ZIP, etc. Pour la base adresse nationale, une API de géocodage a également été mise à la disposition du public.

Chaque producteur de données doit publier ses engagements sur les conditions de la mise à disposition (documentation des données, fréquence de mise à jour, performance et disponibilité de la mise à disposition). La mission Etalab publiera sur son site les indicateurs de disponibilité des données, et assurera plus généralement le suivi du respect de ces engagements.

Cette liste n’est qu’un début. Pendant la consultation de la mission Etalab, les répondants ont en effet mentionné un total de 57 bases de données qui devraient passer en open data. Parmi les données les plus demandées, on peut citer celles des réseaux routiers (graphe, points kilométriques, comptage), des réseaux d'énergie, le répertoire national des élus, les données des marchés publics, les données météorologiques et les données de population (ménages, revenus).

Rappelons qu’en janvier, c’est la RATP (Régie autonome des transports parisiens) qui annonçait la disponibilité en open data de ses données de trafic. Ces initiatives permettront certainement aux développeurs de développer des applications et services utiles alimentés par ces données.

Sources : data.gouv.fr, Mission Etalab

Et vous ?

Qu’en pensez-vous ?
Lesquelles de ces bases de données vous semblent utiles pour vos applications ?

Voir aussi :

Paris : la RATP met en open data ses données de trafic en temps réel, une nouvelle opportunité pour les développeurs d'applications


Vous avez aimé cette actualité ? Alors partagez-la avec vos amis en cliquant sur les boutons ci-dessous :


 Poster une réponse

Avatar de Artemix Artemix - Membre du Club https://www.developpez.com
le 10/04/2017 à 11:35
Sympa comme initiative, mais pas de JSON disponible?

C'est pourtant beaucoup plus léger que CSV ou XML à traiter...
Avatar de bretus bretus - Membre éprouvé https://www.developpez.com
le 10/04/2017 à 22:52
Citation Envoyé par Artemix Voir le message
C'est pourtant beaucoup plus léger que CSV ou XML à traiter...
Je dirais pas ça pour charger ces données... Faire des lectures ligne par ligne de fichier CSV de plusieurs millions de lignes est généralement (*) plus direct que faire des lectures enregistrement par enregistrement dans des JSON ou XML (approche événementielle type SAX).

En bonus, il existe de nombreux outils (ETL, ogr2ogr, etc.) qui sont plus simples à configurer avec du CSV en entrée que du JSON ou XML où il faut gérer les arborescences.

Du coup, pour des données brutes, je préfère largement traiter du CSV plutôt que du JSON.

C'est généralement au niveau des API où l'on peut paginer/limiter les résultats que l'on trouvera du JSON plus facile à exploiter que du CSV. Ça tombe bien car ces API pullulent quand les données brutes sont disponibles et facilement intégrables (voir liste des réutilisations de la base SIREN ou OpenDataSoft).

(*) Si les vilains CSV n'étaient pas légion, ce serait le cas général. Le problème n'est pas CSV en soit, mais le non respect de la RFC 4180, voire de la tendance à produire des CSV pourris (caractères non échappés)
Offres d'emploi IT
Concepteur développeur java / C++ H/F
Atos - Bretagne - Rennes (35000)
Expert JAVA/Portails (H/F)
Atos Intégration - Midi Pyrénées - Toulouse
Développeur c/c++
EXTIA - Provence Alpes Côte d'Azur - Marseille (13000)

Voir plus d'offres Voir la carte des offres IT
Contacter le responsable de la rubrique Accueil