Big Data et données personnelles: vers une gouvernance éthique des algorithmes

Photo Jérôme Béranger / Consultant senior, Keosys, chercheur associé à l'Espace éthique méditerranéen / December 22nd, 2014

La vie contemporaine est devenue presque inconcevable sans l'utilisation de systèmes d’information déployés sur les ordinateurs, smartphones, tablettes, GPS que nous utilisons au quotidien, et auxquels s’ajoutent désormais d’autres objets connectés. Nous baignons dans une réalité numérique contrôlée et personnalisée où convergent une multitude de flux informationnels. L’exploitation de ces données devient un sujet sensible, car elles touchent directement à notre intimité. Certes, chacun dispose d’instruments permettant de régler certains paramètres – par exemple, accepter ou non la géolocalisation. Mais ce contrôle personnel reste partiel et personne ou presque n’est en mesure de le mettre en œuvre sérieusement. La question est donc posée d’un autre niveau de contrôle, d’une gouvernance des Big Data. Comment procéder ? À côté des réponses institutionnelles qui tablent sur l’émergence d’autorités de contrôle, une piste émergente est l’ethical data mining.

Avec le développement des technologies de Big Data, les algorithmes qui exploitent les flux de données jouent un rôle de plus en plus décisif dans les choix des individus. Il serait sans doute abusif de dire que ces algorithmes nous contrôlent, mais ils orientent nombre de nos décisions, du choix d’un hôtel ou d’un billet d’avion à celui d’un itinéraire, d’un livre sur Internet, ou à la rencontre de nouveaux amis sur les réseaux sociaux.

En facilitant nos choix, en les façonnant, ils participent à leur façon à l’organisation de la vie sociale. On assiste ainsi à l’émergence discrète d’un « pouvoir » algorithmique alimenté essentiellement par des données brutes. La capacité de ce pouvoir à intervenir au plus intime de nos vies est inédite : même les totalitarismes, avec leurs légions d’espions et d’indicateurs, n’auraient pas osé en rêver. L’exploitation à grande échelle de ces données permet la production d’une information personnalisée, fondée sur une anticipation du possible et destinée à « faciliter » nos décisions, ce qui ne va pas sans ambiguïté. Les organisations avec lesquelles nous sommes en contact numérique s’intéressent à nos choix, cherchent à les anticiper, à les orienter. Nous n’avons guère de contrôle, et même guère de moyen de comprendre les critères selon lesquelles les algorithmes travaillent à nous comprendre et à nous influencer.

Comment reprendre la main ? Une des pistes les plus intéressantes passe par l’élaboration et la mise en place d’une modélisation adaptée pour analyser, comprendre et traiter ces grandes quantités de données complexes. Une modélisation « éthique », en quelque sorte.

La modélisation éthique des données complexes
Entendons-nous bien. Il ne s’agit pas de freiner l’essor des Big Data, encore moins de revenir en arrière, mais de faire en sorte que nos vies ne soient pas manœuvrées par une rationalité aveugle ou soumise aux seuls impératifs du marketing. L’enjeu est au contraire de construire une modélisation à la fois compatible avec une exigence de sens et avec le potentiel immense des Big Data.

Or il est parfaitement possible d’imaginer une modélisation éthique des données complexes, et ce pour une raison qui tient au fonctionnement même du datamining. Car les algorithmes inductifs qui sont au cœur des Big Data sont animés par une logique étonnamment proche de la « sagesse pratique » qui est au cœur de l’éthique.

Dans sa vie quotidienne, l’être humain perçoit des données, interprète des informations, fait des liens avec d’autres connaissances déjà mémorisées et acquiert ainsi des compétences qu’il est capable de mettre en œuvre ensuite de manière répétée. Il acquiert ainsi une « sagesse pratique », qui peut être formalisée et raffinée dans une « éthique », c’est-à-dire un art du comportement.

Les algorithmes de datamining sont animés par une logique très proche de celle mobilisée par les humains dans leur comportement quotidien : une logique qui n’est pas déductive, mais inductive. Les algorithmes des Big Data n’ont pas été conçus pour faire des démonstrations qui produiraient des résultats incontestables, prouvés par a + b. Ils travaillent à partir de données partielles, incomplètes, peu structurées, des données qui ne permettent pas ce type de raisonnement. Leur fonction est plutôt de repérer des répétitions, d’identifier des schémas, des modèles de comportement : par exemple, sur Amazon, ils repèrent que le lecteur de tel livre a des chances de s’intéresser à tel autre livre. Ils perçoivent des données, les agrègent en informations, interprètent ces informations, font des liens avec d’autres connaissances déjà mémorisées et proposent ainsi des choix réduits, orientés vers une finalité pratique. Cette finalité est au croisement de notre intérêt et de celui de l’organisation qui possède les systèmes d’information, selon des configurations variables qui vont d’une quasi-neutralité à une orientation forcée vers tel ou tel bien, tel ou tel chemin, tel ou tel choix.

Le moment-clé, chez les humains comme chez les algorithmes, est celui de la simplification, c’est-à-dire de la transformation d’un ensemble complexe de données brutes en une information pratique. Cette simplification vise notamment, dans le cas des technologies de l’information, à favoriser une entropie très basse, c’est-à-dire un degré de désordre quasiment nul. Pour reprendre l’exemple d’Amazon, cela revient à ne pas proposer à un amateur de science fiction un ouvrage d’ethnologie. C’est ce moment crucial de la simplification qu’une modélisation éthique des données complexes doit tenter d’accompagner et de nourrir de sens.

Deux principes s’imposent. Tout d’abord, l’ « information » dont nous parlons doit être comprise dans un cadre systémique qui la relie à l’action via la connaissance. L’information est agrégée en connaissance, mais cette connaissance est une connaissance pratique, finalisée dans l’action. C’est moins un savoir qu’un savoir-utiliser.

Le second principe est issu directement de la théorie de l’information. On pourrait le formuler ainsi : à une description de processus on préfèrera une description d’état. L’enjeu de l’éthique, comme celui des Big Data, est le passage d’un état de savoirs complexes, désorganisés et flous vers un état de savoirs simples, structurés et orientés vers une fin.

Un enjeu-clé: la hiérarchisation des données
Une étape décisive de la simplification des données est leur hiérarchisation. C’est elle qui permet de « régler » les algorithmes, de leur faire produire un résultat utilisable. Cette hiérarchisation exige au préalable une réflexion sur la valeur des données, qui ouvre sur toute une série de questions : pourquoi les évaluer, dans quel but et avec quels objectifs ? Selon quels critères estimer la valeur d’une donnée et d’une information ? Et, précisément, que doit-on évaluer ?

La valeur d’une donnée peut se juger sous l’angle du contenu : par exemple, un clic signifie que vous aimez, que vous avancez dans une certaine direction ou que vous faites demi-tour, ou encore que vous finalisez un paiement. La valeur de la donnée peut également être estimée sous l’angle de la redondance, de la diversité et de la quantité. Elle dépend aussi de la connaissance intégrée : certaines données produisent peu de connaissance, d’autres sont plus significatives. Enfin, on peut évaluer la valeur de la donnée par le niveau de partage, la qualité et la quantité des échanges.

Mais la valeur de la donnée est aussi fonction du service rendu à son utilisateur. Évaluer une information, c’est ainsi déterminer la stratégie de sa diffusion : donner accès à la bonne information au bon moment, faire une transmission sélective de l’information en fonction des centres d’intérêt et des besoins des utilisateurs, afin de lutter contre la désinformation et la surabondance informationnelle.

Il est donc indispensable de déterminer quelles données et quelle quantité d’information le concepteur d’un système doit mettre à disposition des utilisateurs. De quelles données ont-ils besoin pour « bien » décider ou « bien » agir ? Afin d’obtenir un équilibre pratique au sein des systèmes d’information entre amélioration et surcharge des données transmises, deux variables peuvent permettre d’optimiser la fonction de hiérarchisation et de sélection.

Première variable, la réévaluation de l’attribution des données sur les différents niveaux du système. Si cette réévaluation est trop récurrente, la surcharge associée au déplacement des données dans un sens et dans l’autre risque d’annuler les performances obtenues grâce au déplacement des données sur les disques de stockage.

Deuxième variable, le volume de données à inclure dans l’unité minimale de stockage puis à gérer et déplacer au sein du système d’information. Là encore, une trop grande quantité de données compliquera et ralentira la fonction de hiérarchisation sélective du système.

Ce travail de hiérarchisation et d’évaluation des données est crucial. Or, c’est ici qu’une dimension éthique peut être introduite. Examinons un cas pratique, particulièrement sensible: les données médicales.

ipadmedical

Un exemple d’analyse éthique: les données médicales
Les données médicales sont aux frontières de deux mondes : l’intimité du patient, qu’il faut protéger, et la statistique épidémiologique, qui a une utilité certaine pour l’ensemble de la population (mais aussi pour les médecins, la Sécurité sociale, l’industrie pharmaceutique, les assureurs, les officines de pharmacie, les hôpitaux…). Comment articuler ces deux dimensions ?

Une approche éthique peut se fonder sur les quatre principes déterminés par Tom Beauchamp et James Childress dans l’ouvrage de référence sur ces questions, Principles of Biomedical Ethics (2001).

Le premier principe est la bienfaisance, définie comme une contribution au bien-être d’autrui. L’action « bienfaisante » doit répondre à deux règles précises : elle doit être bénéfique, et elle doit être utile, c’est-à-dire avoir un rapport coût-bénéfice positif. Second principe, l’autonomie : le fait qu’une personne se donne à elle-même sa règle de conduite. Ce principe vise à la participation du patient au processus de décision. Troisième principe, la « non-malfaisance » : éviter le mal à celui dont on a la responsabilité, lui épargner préjudices ou souffrances qui n’auraient pas de sens pour lui. Quatrième principe, enfin, la justice, qui a pour vocation de partager entre tous les patients les ressources disponibles (en temps, argent, énergie). Ce principe est étroitement lié aux notions d’égalité et d’équité qui interviennent dans le processus d’une décision de justice. Idéalement, toute action devrait tendre vers une égalité parfaite, mais selon les circonstances et les personnes, souvent l’équité s’impose afin d’établir des priorités et une certaine hiérarchie dans les actes à réaliser.

Une sélection bien conçue des données médicales peut répondre à trois de ces quatre principes éthiques.

Principe de bienfaisance, quand la diffusion appropriée de la connaissance auprès des utilisateurs (professionnels de santé et citoyens) garantit le bien-fondé et la légitimité de l’action. La communication devient plus efficiente.

Principe d’autonomie, quand une information claire, précise, adaptée et compréhensible garantit le consentement éclairé de la personne. Le patient dispose d’une capacité de délibérer, de décider et d’agir.

Principe de non-malfaisance, enfin, quand un accès limité aux données selon le profil et le statut de l’utilisateur améliore la sécurité, la confidentialité et la protection des données.

Ce dispositif sélectif des données a toutefois une répercussion négative sur le principe de justice, l’information transmise n’étant pas la même suivant l’utilisateur de système d’information. Le système impose des règles d’attribution et d’accès à l’information qui diffèrent en fonction du statut. La dissymétrie de connaissances est discriminante et remet en cause la transparence de l’information.

Dans cette approche, le classement et le tri des données s’effectuent en fonction de l’importance qu’on leur accorde et des questions posées par leur utilisation et diffusion. La simplification des données transmises entraîne un usage et un accès plus efficace, avec une meilleure saisie et une plus grande sécurité. Elle aboutit en revanche à une moins bonne intégrité des données. De ce fait, la hiérarchisation des données simplifie le travail des divers utilisateurs, mais induit une plus grande complexité technique pour le concepteur du système d’information.

Cette hiérarchisation sélective des données joue un rôle majeur dans le niveau de complexité des données et leur accessibilité auprès des utilisateurs. Nous pouvons l’assimiler à une « intelligence organisationnelle ». Des algorithmes conçus selon les principes de l’ethical data mining font émerger de nouvelles informations, qu’on pourrait dire « info-éthiques ». Cette information pré-traitée, selon une grille d’évaluation éthique, contiendra plus de valeur pour son exploitation future.

Quand l’éthique améliore la qualité des données
Ce dispositif de hiérarchisation puis de sélection des données initiales entraîne une amélioration de la valeur qualitative et entropique de la connaissance, au détriment d’une perte quantitative de données et d’informations. Ainsi, un système de hiérarchisation sélective automatique de données permet à une baie de stockage de faire migrer automatiquement des données sur la bonne classe de services en fonction des besoins de chaque utilisateur.

Cette approche s’articule parfaitement avec les travaux sur les algorithmes inductifs qui sont au cœur des technologies de Big Data. À un problème posé, il n’existe pas de solution inductive unique et universelle. Toutefois, il est courant qu’un nombre réduit de traitements réponde à une finalité particulière. À l’instar d’un processus éthique, les algorithmes inductifs les plus performants sont évolutifs. Ils s’améliorent en ajustant leurs manières de traiter les données en fonction de l’utilisation la plus pertinente qui pourra en être faite. Pour élaborer ces algorithmes, il est indispensable que le traitement des données soit anticipatif et contributif. Pour ce faire, l’exploitation des Big Data doit convertir le plus tôt possible ces données en info-éthiques exploitables pour les moments suivants.

Dans ce contexte, l’étude de la solution de hiérarchisation sélective par un prisme éthique permet de mieux comprendre l’équilibre instable qui existe entre la disponibilité, la confidentialité et la protection des données. Cet équilibre peut pencher d’un côté ou d’un autre en fonction du contexte donné. Une telle approche conduit à nous poser toute une série de questions avant de mettre en application la sélection des données : quels sont les objectifs, les buts, les enjeux et le sens de cette étape ? Quelles données vais-je utiliser ? Des données partielles ou totales ? Comment vais-je les utiliser ? À quel endroit ? Auprès de quels utilisateurs ? Plus globalement, comment exploiter l’ensemble hétérogène des données accumulées et stockées dans un système d’information ? Quelle sera sa pertinence par rapport à ma situation ? Cela ne va-t-il pas dénaturer la valeur informative initiale ? L’intégrité du message final sera-t-elle conservée ?

La technologie ne permet pas de répondre totalement à ces questions. Nous devons également faire appel à la déontologie et aux comportements humains pour garantir la confidentialité et la protection des données personnelles. Cela pourrait passer par une charte éthique entourant la conception, la mise en place et l’usage des données personnelles intégrées dans ces Big Data. Se pose alors la question de l’organisme ou institution qui pourrait être chargé de la préparation de cette charte, et des processus de labellisation des algorithmes « éthiques ».

References

BOOKS

More on paristech review

By the author

  • Big Data et données personnelles: vers une gouvernance éthique des algorithmeson December 22nd, 2014

www.paristechreview.com

This content is licensed under a Creative Commons Attribution 3.0 License
You are free to share, copy, distribute and transmit this content

Logo creative commons

5 quai Voltaire 75007 Paris, France - Email : contact@paristechreview.com / Landline : +33 1 44 50 32 89