publicité

Des formules d’abonnement
sur mesure 

DONNANT-DONNANT

 

Bientôt chez vous : la révolution du bigdata des territoires

28/08/2017 | par Jacques Priol | Toute l'actualité

bigdata_2 ©garrifrotto - fotolia

La masse monstrueuse des données individuelles traitées par les grands de l’économie numérique bouleverse notre univers. Et souvent nous inquiète. Mais la nouveauté en train d’arriver, c’est que la collecte et l’utilisation de ces données sont désormais à portée de main des collectivités locales. La technologie arrive. La loi évolue. Les données elles-mêmes sont à disposition, ou presque. Le bigdata des territoires, c’est pour aujourd’hui.

Cet article est le second d’un dossier consacré aux différentes formes de données qui vont bousculer les pratiques professionnelles des fonctionnaires territoriaux. Dans de prochains articles de La Lettre du cadre, vous retrouverez des décryptages et des conseils concernant la généralisation de l’opendata, l’irruption du bigdata dans les prévisions électorales, les nouveaux outils de gestion de la « data usagers »,…

Article publié le 20 décembre 2016

 

Bigdata… traduction française : les mégadonnées, ou de façon plus simple, les données massives. Il n’existe pas de définition arrêtée du concept. Dans la littérature scientifique comme dans l’acception courante, le bigdata est l’addition de deux choses : d’un côté des données de plus en plus nombreuses, de l’autre des moyens toujours plus puissants de les stocker et de les analyser.

Confusément, chacun comprend qu’il est concerné. Chacun reçoit des publicités ciblées via Google, Facebook, Amazon, la Fnac et bien d’autres. Pour ou contre, chacun comprend que le fichier « TES » voulu par le gouvernement, c’est « big », et que la « data » c’est lui, ses empreintes, sa photo. Des compagnies d’assurances et des mutuelles construisent des offres qui adaptent les tarifs aux comportements mesurés par des objets connectés, dont les données sont stockées. En matière électorale, la victoire de Donald Trump apparaît comme une défaite du « bigdata électoral » d’Hillary Clinton (160 millions d’Américains « fichés »). Au même moment, la CNIL sanctionne le Parti socialiste pour un stockage insuffisamment sécurisé des données de ses adhérents, et engage une procédure à l’encontre de Nicolas Sarkozy concernant une méthode de collecte de données non conforme à la loi française.

 

Chacun comprend que le fichier « TES » voulu par le gouvernement, c’est « big », et que la « data » c’est lui, ses empreintes, sa photo.

 

Parmi les collectivités territoriales, les pionnières de l’opendata cherchent à franchir une nouvelle étape pour que toutes les données rendues publiques depuis quelques années soient plus et mieux utilisées. Les villes et métropoles engagées dans des programmes de « smart city » commencent à stocker des données de façon massive au service de nombreux métiers techniques : gestion du trafic, éclairage, chauffage urbain, énergie, eau, arrosage et entretien… Les premiers outils de bigdata des territoires se mettent en place.

 

Comprendre le bigdata

Mais concrètement, qu’est-ce que le bigdata apporte, et comment ça marche ?

Nous sommes face à un phénomène récent (le terme est apparu en 2010) dont le développement exponentiel dépasse les habituelles courbes de diffusion du développement technologique. Les premiers acteurs à avoir été submergés par un volume de données phénoménal furent les géants du Net. Google d’abord, qui stocke des milliards de requêtes et de résultats de recherches, pour ensuite cibler les publicités chez ses utilisateurs. Facebook, Twitter, Instagram, Linkedin… tous les réseaux sociaux ensuite, qui collectent tant de données, là encore pour vendre ensuite de la publicité. Amazon et d’autres enfin, qui utilisent les informations amassées pour prédire, et induire, le comportement des acheteurs.

 

Google et le grain de riz
L’unité de base du stockage informatique est l’octet, une série de huit chiffres 0 ou 1.
Si 1 octet est un grain de riz, alors :
• 1 kilo-octet (Ko) est un petit verre de riz
• 1 mégaoctet (Mo) remplit deux grands sacs de riz
• 1 gigaoctet (Go) remplit deux semi-remorques de riz
• 1 teraoctet (To) remplit une file ininterrompue de semi-remorques de 40 kilomètres de long
On parle ensuite de peta, exa, zetta et même yottaoctet.
Et le volume total des données stockées et traitées par Google correspond à la totalité de l’océan Pacifique, rempli de riz en surface et en profondeur…

 

De manière globale, le volume des données stockées dans le monde double tous les deux ans. De façon spécifique, selon une étude du cabinet McKinsey : « en 2020, le volume des données produites pour la gestion des villes européennes sera 4 fois supérieur à celui des données produites pour la seule année 2015 ».

 

De nouveaux horizons s’ouvrent, réservés jusqu’alors à des grands groupes, ou à des gouvernements et à quelques équipes de recherche puissamment dotées.

 

Le traitement de ces données massives est rendu possible par deux mouvements : l’accroissement très rapide des capacités de stockage pour des coûts de moins en moins élevés, et le développement de puissances de calcul informatique permettant l’utilisation d’algorithmes de plus en plus sophistiqués par des acteurs économiques de plus en plus modestes. De nouveaux horizons s’ouvrent, réservés jusqu’alors à des grands groupes, ou à des gouvernements et à quelques équipes de recherche puissamment dotées.

Mais des données massives stockées et des algorithmes prêts à tourner ne suffisent pas à « faire du bigdata ». On sort des modèles statistiques ou des modèles décisionnels classiques lorsque ces données répondent à la « règle des 3V » (voir infographie) : elles sont volumineuses, très variées et se mettent à jour de façon véloce. Certains auteurs ajoutent un 4e V : il faut qu’elles soient valides (ou vérifiées).

 

Le bigdata ne se sert pas d’échantillons pour expliquer un phénomène : il examine le phénomène.

 

Face à une telle profusion, les modèles statistiques classiques s’effondrent. Nous avons tous été formés à un raisonnement intelligible : l’analyse rigoureuse d’un échantillon permet de comprendre des phénomènes larges par des extrapolations. Plus l’échantillon est grand, plus la marge d’erreur est limitée. Sondages politiques, études sociologiques, études marketing, protocoles de recherche médicaux, géographie, économie… autant de domaines bousculés par l’usage des données massives.

Le bigdata ne se sert pas d’échantillons pour expliquer un phénomène : il examine le phénomène. On abandonne le zoom pour un grand angle. Et l’algorithme dessine une représentation du monde avec des « modèles », dont on tirera éventuellement des prédictions. Ceci vaut pour les phénomènes météorologiques, comme pour le comportement des consommateurs de la Fnac !

 

Le bigdata et les territoires

Comprendre, et anticiper, le comportement des citoyens… un rêve de décideur public ? Encore faut-il disposer de données. Or celles-ci existent. Et elles sont massives.

Il y a d’abord les données qui caractérisent le territoire. Si les services des collectivités avaient l’habitude d’utiliser ponctuellement des données de l’Insee, ils peuvent aujourd’hui y accéder de façon directe et permanente avec une définition à l’échelle des Iris (zones de 2.000 habitants environ) ou même par carreau de 200 mètres de côté. Une centaine d’indicateurs sociaux, démographiques et économiques, sont disponibles. Les organes consulaires, des opérateurs privés, des fournisseurs de données, disposent aussi massivement d’informations territorialisées.

 

Les collectivités peuvent aujourd’hui accéder aux données de l’Insee avec une définition à l’échelle des Iris (zones de 2.000 habitants.

 

Il y a aussi toutes les données techniques, issues du déploiement rapide de capteurs et autres objets connectés. Il y a surtout les données des usagers.

La collectivité en gère beaucoup, mais elle n’est pas la seule. Les grands opérateurs de services publics (Véolia, Vinci, Bouygues, Enedis, Suez…) collectent massivement ces données depuis des années. Ils viennent de perdre une intense bataille de lobbying : la loi pour une République numérique du 7 octobre 2016 les obligera à les restituer aux collectivités concédantes.

Par ailleurs, les habitants, usagers ou citoyens, laissent eux-mêmes quantité de données publiques accessibles. Sur les réseaux sociaux notamment. Les premières applications sont expérimentées. À Los Angeles, un algorithme est développé pour prédire les violences urbaines. À Singapour, Londres, mais aussi Lyon, le bigdata anticipe le trafic routier. À Paris, première ville de France à avoir créé la fonction de « chief data officer », on fait de la maintenance préventive d’équipements en intégrant des prédictions météorologiques.

 

La loi pour une République numérique oblige les grands opérateurs de services publics à restituer leurs données aux collectivités concédantes.

 

La recherche médicale est bouleversée, les mutuelles travaillent à des modèles prédictifs de risques médicaux ? L’État et les départements seront aussi impactés et pourront mieux cibler leurs politiques de prévention. « Bob emploi » aide des demandeurs d’emploi à mieux calibrer leurs recherches et à renforcer leurs atouts ? Les services régionaux de formation professionnelle, les missions locales, les points information, de nombreux services d’accueil, des guichets uniques… pourront demain avoir des outils pour offrir à leur public la meilleure aide disponible.

 

Quelques problèmes à venir

Offrir le meilleur service possible ou « cibler » de façon intrusive ? C’est l’une des questions posées par le développement des outils de collecte massive dès lors qu’ils permettent l’utilisation d’un modèle prédictif applicable à chacun d’entre nous. Un « big brother » insupportable ou le prix à payer pour un service public sur mesure, probablement plus économe et plus efficace ? En France, la CNIL veille au grain et demande que la collecte de données soit consentie, et que son usage soit loyal. Et d’ailleurs, comment imaginer qu’à terme des outils utilisés massivement par des marques et des enseignes commerciales ne soient pas accessibles au service public, pour le bien commun et l’intérêt général ? Plusieurs études montrent que les Français, bien que méfiants, y sont plutôt favorables.

 

En France, la CNIL veille au grain et demande que la collecte de données soit consentie, et que son usage soit loyal.

 

Face à cette question, éthique et politique, des réflexions s’engagent autour de la notion de « self data ». L’idée est simple : donner la possibilité à chaque citoyen d’avoir la clef d’un conteneur dans lequel seraient stockées ses données ; libre à lui d’en ouvrir l’accès à tel ou tel de façon volontaire et révocable. Encore faut-il que le système soit géré par un tiers de confiance ; pourquoi pas une collectivité publique ?

Au-delà de la sécurité individuelle, se pose aussi la question de la maîtrise des données collectives d’intérêt général. En créant un « service public de la donnée », la loi Lemaire pose pour l’État la première pierre d’un processus qui pourrait conduire des territoires à vouloir stocker et gérer les données qui les concernent et sont un bien commun.

Un jour, bientôt en France, des assemblées locales adopteront leurs politiques territoriales de la donnée.

 

Jacques Priol, (contact@civiteo.fr) est consultant. Il est le fondateur de Civiteo, une agence de conseil créée à Nantes en 2016 pour accompagner les décideurs publics dans la compréhension des nouveaux enjeux, et la définition de la place de la « data » au sein de leurs processus de décision. Il est aussi expert en données électorales.

 

 

Pour approfondir
• La politique de la donnée d’un territoire, Écosse « A data vision for Scotland », http ://www.gov.scot/Resource/0044/00448438.pdf
• « Bigdata, qu’en pensent les Français ? », Une étude Harris Interactive pour Quantmetry, goo.gl/swxm4t
• « La recherche et le poids des données massives », François Laviolette – goo.gl/R5uSuS
• Bob Emploi – https ://www.bob-emploi.fr/
• Le « self data » : le programme « MesInfos » de la FING – http://mesinfos.fing.org/
• Datanomics, les nouveaux business models des données, Simon Chignard et Louis-David Benyayer – Éditions FYP 2015
• Enjeux et usages du big data, Christophe Brasseur – Lavoisier Hermès – 2e édition 2016
• « Pour tout résoudre, cliquez ici », Evgeny Morozv – Éditions FYP 2015

Pas de commentaire

Ajouter un commentaire

Laisser un commentaire

Tous les champs sont obligatoires (votre adresse e-mail ne sera pas publiée)

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

publicité