Les promesses du Big Data

Photo ParisTech Review / Rédaction / December 19th, 2011

L'information est aujourd'hui plus abondante que jamais et sa croissance est chaque jour plus rapide. Il y a encore vingt ans, le principal enjeu était son contrôle, autant en politique que dans les entreprises. Aujourd'hui, c'est d'être capable de l'exploiter, de transformer en valeur d'énormes masses de données produites en temps réel.

Le déluge des données numériques, évoqué dans nos colonnes par George Day et David Reibstein, n’impacte pas que les métiers du marketing. C’est l’ensemble des organisations de production qui est touché, et au-delà l’enjeu de compétitivité concerne les économies nationales. Ceux qui seront capables d’utiliser ces données auront une longueur d’avance pour connaître les opinions et détecter les mouvements culturels, mais aussi pour comprendre ce qui se joue au sein de leur organisation, en améliorant les processus et en informant mieux la prise de décision. Encore faut-il s’en donner les moyens: c’est tout la difficulté du “big data”, qui est à la fois une promesse et un défi. Défi technique, mais aussi intellectuel, car les outils informatiques qui permettront d’exploiter ces bases de données ne sont évidemment qu’une partie de la solution.

L’ère de l’information
La question a d’abord surgi au sein du monde académique, quand une équipe dirigée par Peter Lyman et Hal R. Varian, de l’université de Californie à Berkeley, a entrepris de mesurer la quantité d’information produite et stockée dans les médias, notamment numériques. Un premier rapport fut publié en 2000 et actualisé en 2003, How Much Information. Il mettait en évidence un phénomène dont on se doutait fortement: non seulement la quantité d’information double régulièrement, mais elle le fait dans des intervalles de plus en plus courts. Les raisons invoquées par les chercheurs étaient multiples. Ils citaient notamment la multiplication des contenus numériques, due à la création, mais aussi à la numérisation de documents et plus spécialement d’images. L’archivage électronique, par de nombreuses organisations, de leurs données physiques, y contribue notablement à cette tendance, de même que le vaste mouvement de numérisation des données imprimées entrepris dès les années 1990 par les grandes bibliothèques mondiales.

Lyman et Varian évoquaient aussi la croissance déjà vertigineuse des échanges en ligne, avec le fameux Web 2.0 où chacun est un éditeur en puissance. L’explosion des réseaux sociaux, dans la deuxième moitié des années 2000, n’a fait qu’accélérer cette tendance.

Dans ce contexte, les moteurs de recherche comme Google ont eu un rôle de plus en plus décisif… et ils se sont mis, eux-mêmes, à fabriquer de l’information, puisque la méta-information (classement, indexation, taguage) est aussi de l’information. Des bases de données gigantesques se sont ainsi constituées, dont l’exploitation a produit de nouvelles données.

Aux données brutes se sont progressivement ajoutées des métadonnées, qui constituent aujourd’hui une part croissante de la masse d’information en circulation. Les données brutes, c’est une ligne sur votre compte bancaire ou encore la photo que vous postez sur un site de partage. Les métadonnées, c’est par exemple votre profil bancaire, constitué en croisant les différentes données à votre sujet, c’est aussi le réseau de personnes qui a pu voir votre photo, qui l’ont réellement vue, qui l’ont commenté, ainsi que les parcours numériques de ces personnes pour arriver à votre photo.

Sauf peut-être quelques Indiens isolés dans la forêt amazonienne, chaque être humain laisse ainsi des traces numériques de plus en plus abondantes. Les habitants des pays développés en laissent d’innombrables, des commentaires postés sur des blogs aux transactions en ligne en passant par la géolocalisation par smartphone. Très vite un certain nombre d’acteurs ont repéré la valeur de ces traces et appris à les exploiter, notamment Google ou Facebook, qui s’en servent pour cibler les publicités qui apparaissent sur nos écrans. D’autres acteurs se sont lancés, comme les compagnies d’assurances qui, dans les pays où c’est autorisé, recueillent des données personnelles pour enrichir et affiner leurs actuaires.

Les métadonnées sont réactualisées constamment, ce qui peut amener à voir le monde de l’information comme un univers de flux éphémères. Ces flux nourrissent des stocks, des banques de données, mais on peut aussi les filtrer en temps réel, en les considérant comme une énorme masse en mouvement et non comme un volume inerte. Ce sont ces big data qui sont aujourd’hui au centre de toutes les attentions.

Une révolution informatique
L’informatique d’hier a été construite autour de la gestion de bases de données relativement stables, relativement fermées et, pourrions-nous ajouter, relativement limitées. La révolution en cours concerne aussi bien l’échelle, avec des masses de données littéralement gigantesques, que la réactualisation constante due à l’ouverture des bases sur des flux. À quoi s’ajoutent la complexité des formats et l’interconnexion entre les bases, qui exclut l’usage des outils de gestion traditionnels.

Certes, le coût de stockage tend aujourd’hui à baisser presque aussi rapidement que le volume stocké augmente. Par ailleurs, des outils ont été développés, notamment des superordinateurs, qui permettent de gérer des bases considérables.

Au-delà du hardware c’est la nature même des outils d’analyse, dans le domaine du software, qui est aujourd’hui en question. Les outils traditionnels, par exemple les algorithmes d’analyse décisionnelle, sont tout simplement dépassés par la masse de données considérées et par leur dissémination. Les données des big data ne sont pas toutes dans la “base de données”: elles sont d’abord et avant tout à l’extérieur, et la base est, à proprement parler, virtuelle.

Le développement d’Internet et l’apparition de services de grande audience a été un défi pour les systèmes de gestion de base de données. L’idée même de base de données relationnelle (un stock d’informations décomposées et organisées dans des matrices appelées relations ou tables) est dépassée par la fluidité des données et par leur caractère mouvant. Et avec les bases de données ce sont les anciens langages de requêtes structurés (Structured Query Language, SQL) qui sont emportés, puisque leur fonctions (grossièrement: définir des données, les classer) sont opérationnelles à l’intérieur d’une base fermée, mais perdent de leur efficacité dans un système ouvert.

Les nouveaux systèmes de gestion ont dû renoncer à certaines fonctionnalités pour gagner en puissance de calcul. On a ainsi vu apparaître de nouveaux outils: des bases de données orientées par colonnes et non par lignes, ou encore des bases de données “in-memory”, qui font travailler principalement la mémoire centrale, et non des disques. Les bases de données “in-memory” sont plus rapides que les autres, car l’accès aux données et algorithmes d’optimisation internes sont plus simples: la lecture des données est ainsi exécutée plus rapidement.

Mais l’innovation majeure, qui constitue une rupture, ce sont les outils alimentés en temps réel, dont le fonctionnement n’est plus fondé sur les données stockées mais sur les flux entrants, et dont le traitement est délocalisé. C’est le cas de Streambase, ou de Hadoop, une plateforme libre qui permet le traitement parallèle de données sur différentes machines. Le traitement proprement dit est divisé en deux types d’opération: le mapping est le traitement d’un sous-ensemble de données, le reducing est la synthèse agrégée des résultats des mappers.

Cette technique de cloud computing a été adoptée notamment par les grands réseaux sociaux, et son horizon est de délocaliser à l’infini le traitement des données: chaque utilisateur actif représente un ensemble de données, mais aussi un ordinateur disponible.

Que faire de ces données? Parmi les outils d’analyse particulièrement novateurs figurent les graphes, qui permettent de cartographier les interactions entre acteurs d’un réseau. Comme l’explique Henri Verdier, Google+, le nouveau réseau social de Google, est entièrement construit autour des “cercles” de relations, gérés par l’utilisateur, qui offrent au géant une connaissance incomparable des dynamiques sociales, à la fois générales (tendances, propagation des opinions, etc.) et personnelles (pratiques, habitudes, affinités). Les graphes qui permettent de modéliser les dynamiques des petits groupes sont générés en temps réel et de façon automatisée, pour le ciblage de la publicité, mais on peut aussi les agréger pour détecter des tendances, des mouvements d’opinion, des usages émergents. Cela offre à Google, non seulement une idée précise des pratiques de consommation, mais une information extrêmement précise sur ses partenaires commerciaux, ce qui lui confère un pouvoir de négociation sans équivalent.

Un enjeu de compétitivité?
Si l’on voit bien l’intérêt de ces nouvelles technologies pour les géants de l’Internet, la question se pose aussi pour un grand nombre d’entreprises et d’acteurs publics. Car ces données sont une mine encore inexploitée. C’est évidemment un enjeu essentiel que d’être capable de les analyser. Une partie de la réponse est technique, l’autre tient à la capacité à mobiliser des ressources et des compétences, à la fois pour mettre en place les outils, les gérer, et en tirer des informations utiles.

Une étude de McKinsey a tenté de mesurer le potentiel économique de cette nouvelle frontière technologique, et les résultats sont prometteurs. Selon les consultants de McKinsey, l’ensemble des secteurs économiques, mais aussi des administrations publiques, devraient pouvoir en profiter.

Cela semble évident dans des secteurs comme le marketing ou la gestion des stocks, chez les géants de la distribution par exemple. Des capacités accrues en la matière auraient un effet direct sur leurs marges nettes. Mais les grandes administrations (fisc, santé publique), qui gèrent les données des dizaines de millions de citoyens ou d’assurés sociaux, pourraient elles aussi affiner considérablement leurs modes de gestion, en repérant les tendances et notamment les dérives de coût, en détectant mieux les anomalies (et donc les fraudes potentielles), et plus généralement en comprenant mieux les usages et les pratiques. McKinsey évoque également des gains de productivité dans le monde industriel.

Cela suppose des compétences, et donc un effort de formation en interne, dans les organisations concernées, mais aussi dans le monde universitaire. Constituer ce vivier de compétences est un processus long et difficile, où se jouera sans doute une partie de la compétition de demain.

Une révolution scientifique?
Au-delà des enjeux économiques, le big data est en train de modifier considérablement la façon dont travaillent les scientifiques. Comme l’explique Jannis Kallinikos, professeur de management à la London School of Economics, “de plus en plus, le développement des connaissances et plus généralement la construction du sens sont conduits à partir de commutations et permutations exécutées sur d’énormes masses de données”. C’est une tendance déjà ancienne dans les sciences sociales, mais elle s’étend à l’ensemble des disciplines.

Les conditions dans lesquelles les données sont capturées et agrégées surpassent de loin la capacité de mémoire et de concentration des meilleurs experts. Jannis Kallinikos prend un exemple paru dans le magazine Wired, celui d’un chercheur de l’université de Californie qui cherche à comprendre le vieillissement des os. Son outil, c’est un ensemble de scans, qui passent sur des planches de rayons X à très haute résolution et combinent ces images en une structure à trois dimensions. Les résultats sont ensuite agrégés. Le but principal du scannage des os, observe Jannis Kallinikos, n’est plus de fournir des preuves aux experts: la connaissance médicale qui émergera finalement de ces données dérivera de corrélations statistiques extraites des téraoctets de données produites par des millions de scannages. On n’est plus dans la confrontation d’une théorie à la réalité, mais dans un process entièrement nouveau: le modèle, s’il existe, émerge de processus bottom-up de manipulations statistiques de données.

Le fameux gourou du Web, Chris Anderson, prédit ainsi la fin des théories, c’est-à-dire de la science telle que nous l’avons connue: un développement conceptuel déductif fondé sur des preuves empiriques. De plus en plus, explique-t-il, la connaissance sera produite d’une façon inductive, à partir des corrélations extraites de grandes masses de données. C’est sans doute discutable; mais le débat est ouvert.

More on paristech review

By the author

  • Notre édition chinoise en ligne!on July 3rd, 2014
  • Semi-conducteurs: de quoi sera fait l’après silicium?on June 27th, 2014
  • Série Robotique – 3 – Votre chirurgien préféré sera-t-il un robot?on June 26th, 2014

www.paristechreview.com

This content is licensed under a Creative Commons Attribution 3.0 License
You are free to share, copy, distribute and transmit this content

Logo creative commons

5 quai Voltaire 75007 Paris, France - Email : contact@paristechreview.com / Landline : +33 1 44 50 32 89