- Titre :
- Rencontre avec Antoinette Rouvroy : la data et les algorithmes ; gouvernementalité algorithmique et idéologie des big data
- Intervenante :
- Antoinette Rouvroy
- Lieu :
- Bruxelles
- Date :
- février 2018
- Durée :
- 16 35 min
- Visualiser la vidéo
- Licence de la transcription :
- Verbatim
- Illustration :
- capture d’écran de la vidéo
- NB :
- transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.
Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l’April, qui ne sera en aucun cas tenue responsable de leurs propos.
Description
Antoinette Rouvroy docteur en sciences juridiques et chercheuse qualifiée du FNRS [Fonds de la recherche scientifique], Université de Namur. Elle développe le concept de gouvernementalité algorithmique qui tend à expliciter la manière dont les algorithmes imposent une gestion des sociétés sur la base des données qui s’échappent des individus.
Un entretien filmé par Thomas Gouritin, journaliste et créateur de la chaîne Regards Connectés.
Transcription
Biais et représentation du réel
La prévention des biais des algorithmes est une sorte d’obsession contemporaine, mais qui est liée précisément aux ambitions propagées par l’idéologie technique des big data du fait que les big data, en fait, nous dispenseraient de la représentation. Or, en tant qu’êtres humains, nous n’avons accès au monde qu’à travers la représentation que nous nous en faisons, c’est-à-dire qu’à travers nos biais.
Les biais ne sont pas nécessairement absolument quelque chose à abattre ou à vouloir combattre absolument. L’idée qu’il serait possible de supprimer tous les biais et de réellement avoir accès au monde lui-même, directement, est une idée qui est complètement fausse.
Comme cette idée de post-vérité est dans une certaine mesure aussi une idée un peu fausse, dans la mesure où on n’a jamais eu accès à la vérité. Ce n’est pas qu’avant on avait accès à la vérité et le domaine des big data ne vont pas nous donner un accès tout à fait objectif au réel tel qu’il est. Le monde nous restera toujours mystérieux quel que soit le raffinement des algorithmes à travers lesquels on va essayer de l’explorer.
Cela étant dit, il y a des biais qui sont identifiables, qui ne sont pas nécessairement négatifs, qui peuvent l’être, mais objectiver, tenter d’objectiver ou, en tout cas, nommer les biais c’est quelque chose d’assez important si on veut pouvoir opérer une critique, une constestabilité ou une auditabilité des processus algorithmiques.
Premièrement, les biais sont déjà dans le monde physique qui est enregistré sous forme de données.
L’idéologie technique des big data prétend enregistrer passivement le monde tel qu’il est, mais il ne l’objective pas. C’est-à-dire qu’en transcrivant le monde sous forme de données on ne le purifie pas du même coup de tous les rapports de pouvoir, les rapports de domination, les rapports de force qui font que l’état de fait est ce qu’il est. Or, les données transcrivent l’état de fait tel qu’il est sans en transcrire les conditions.
C’est-à-dire que quand on transcrit le monde physique sous une forme de données — d’ailleurs c’est même bien souvent une obligation si on ne veut pas tomber sous le coup de l’application des régimes de protection des données à caractère personnel, ce qui est assez coûteux pour une entreprise, par exemple — eh bien on est obligé d’anonymiser. Anonymiser ça veut dire aussi désindexer, décontextualiser, c’est-à-dire oublier, rendre les données amnésiques de leur source, amnésiques de leurs conditions de production. En rendant les données amnésiques de leurs conditions de production, on les fait apparaître comme des faits neutres, des pures présences ; Derrida parle à cet égard de présence sans existence. C’est-à-dire qu’on ne peut plus rattacher les données à un référentiel originaire par rapport auquel on pourrait évaluer leur validité. Donc déjà là il y a une sorte de divorce, si vous voulez, d’avec l’idée même d’une possibilité de critique par la neutralisation ou la naturalisation de l’état de fait par la transcription sous forme de données.
Ça c’est un premier biais. Ce biais-là est difficile à combattre, il est difficilement curable à moins d’exiger toujours la possibilité de pouvoir accéder à la source de la donnée.
Là se pose toute une question d’éditorialisation des corpus, etc., mais alors on ne pourra plus adhérer à l’idéologie technique des big data qui dit qu’on peut se passer de théorie. On perd quand même tout ce qui a fait un peu le buzz autour de ces big data, mais c’est une voie absolument intéressante et je pense qu’il faut en revenir à ça dans une certaine mesure.
Deuxième type de biais, il tient aux métriques des algorithmes. Quand un algorithme analyse des données, il va accorder un certain poids — je caricature un peu — à certains types de données, un autre poids à d’autres types de données qui proviennent de telle région du monde numérisé ou de telle région de l’univers numérisé. Ces métriques sont décidées. Elles ont été décidées par des ingénieurs en fonction d’objectifs qui ne sont pas toujours très explicités. On pourrait exiger l’explicitation de ces objectifs, c’est ce qu’on appelle la fonction objective d’un algorithme. Expliciter pourquoi on donne plus de poids à tel type de données qu’à tel autre. C’est une manière de rendre l’algorithme non pas transparent mais de rendre les intentions ou la fonction d’algorithme transparente.
Big data, causalité et corrélation
Il y a quand même toute une série de mouvements qui vont dans le sens d’une revendication ou de demandes de plus grande transparence des algorithmes ou une auditabilité ou une intelligibilité ou une interprétabilité des algorithmes. Il y a des travaux plutôt dans le domaine technique pour rendre les algorithmes auditables, etc. On peut le faire dans une certaine mesure, une mesure qui est un peu limitée par les perspectives d’auto-apprentissage justement. Quand vous avez des algorithmes qui deviennent auto-apprenants ça veut dire aussi qu’ils s’émancipent progressivement des programmations qui leur ont été inculquées.
On parle d’apprentissage supervisé. Lorsqu’il s’agit d’apprentissage supervisé les ingénieurs gardent la main sur les jeux de données qu’ils introduisent en entrée, sur les jeux de données qu’ils corrigent pour obtenir le résultat souhaité, etc. Donc là ça reste quelque chose d’assez métrisable.
Quand on parle d’apprentissage non-supervisé dans ce cas-là les algorithmes apprennent d’eux-mêmes en fonction des données auxquelles ils sont exposés. Larry Lessig disait Code is Law, « Le code est la loi », là, finalement, ce n’est même plus le code qui est la loi, ce sont les données, ce sont les données qui enseignent : les données enseignent à l’algorithme. Là, la logique algorithmique devient aussi compliquée et à la limite imprévisible que le monde physique lui-même, que la sauvagerie des faits. Donc ces résultats sont aussi assez imprévisibles, ce qui est intéressant en soi, aussi. Je ne condamne pas du tout les algorithmes, ils peuvent être très intéressants dans la mesure où ils sont équipés, justement, d’une sorte de curiosité automatique, c’est-à-dire que les algorithmes n’ont pas tous les biais que nous avons.
Nous avons des biais perceptuels qui sont liés au fait que nous avons un corps qui est situé dans l’espace et, par exemple, notre champ de vision est borné, donc nous avons toujours un point de vue. Ce point de vue détermine ce qui nous est perceptible, ce qui nous est intelligible, ce qui nous est interprétable.
L’algorithme, par contre, lui vit dans un espace tout autre. Son mode d’existence est complètement différent du nôtre. Il peut voir de façon simultanée ou percevoir ou enregistrer ou calculer, mettre en corrélation des points de données qui sont très éloignés les uns des autres dans l’espace, dont les sources sont très éloignées dans l’espace. L’algorithme, si vous voulez, se meut dans un univers tout autre et peut percevoir des choses qui nous seraient complètement imperceptibles. Donc les algorithmes peuvent être très intéressants dans la mesure où ils font parler le monde, y compris le monde social, d’une manière tout autre que nous en tant qu’êtres humains, avec des points de vue situés, sommes capables de le faire parler. Ça peut être intéressant pour rendre visibles certaines portions du réel qui resteraient sinon inaccessibles, mais ça peut être dangereux aussi dans la mesure où on se suffit, où on se satisferait de la seule corrélation. C’est-à-dire que si on se satisfait de la seule détection automatisée, automatique, de corrélation dans des quantités massives de données, le risque est grand d’interpréter les résultats de façon erronée, c’est-à-dire de penser qu’il peut y avoir des causalités sous-jacentes à des corrélations qui sont détectées entre, par exemple, des données qui ne sont en fait que des bruits. Ça a été démontré mathématiquement notamment par Giuseppe Longo, le mathématicien. Il dit, finalement, que plus les quantités de données s’accroissent, plus statistiquement vous avez des risques de produire des spurius correlations, c’est-à-dire des corrélations abusives entre des choses qui sont corrélées, mais c’est le pur résultat du hasard, c’est-à-dire que la corrélation ne signifie en fait rien, elle n’est donc pas opérationnelle.
En plus vous avez des risques d’erreur d’interprétation des corrélations mêmes. C’est-à-dire que si vous détectez dans un grand ensemble de données que les points A et B se trouvent fréquemment coprésents, vous allez dire qu’il y a une corrélation relativement forte ; dès que A bouge B bouge aussi, donc vous dites qu’il y a une corrélation forte. Mais cette corrélation peut s’interpréter de diverses manières, soit elle s’interprète en disant que c’est A qui cause B, soit on peut dire que c’est B qui cause A, soit c’est C, qu’on n‘a pas aperçu, qui est la cause des deux, qui est la cause de A et B. Donc vous voyez ! Il y a des cas dans lesquels recourir à des algorithmes et à cette logique de corrélation plutôt que d’essayer de trouver la causalité et de comprendre réellement le monde dans lequel on vit peut-être très utile, peut économiser du temps, de l’argent, nous permettre d’avoir un rapport plus granulaire, moins sélectif au monde, donc ça peut être très intéressant. Mais il est des cas dans lesquels se satisfaire de la corrélation est contraire à la plus élémentaire prudence. Je pense par exemple à la black box medecine qui est en train de se développer aujourd’hui dans laquelle, finalement, on fait des essais cliniques non plus en recrutant des participants, des sujets humains, mais en faisant des pures simulations sur des bases de données, des masses de données massives évidemment parce qu’on a énormément de données de santé, c’est le secteur des big data qui croit le plus rapidement aujourd’hui, donc c’est très intéressant. Mais si on ne soucie pas de la causalité, c’est-à-dire des mécanismes physiques qui causent les phénomènes pathologiques, on risque fort, si on en arrive à faire de la prescription de certaines alternatives thérapeutiques à des personnes concrètes, à des personnes en chair et en os, d’aboutir à des risques assez substantiels d’effets secondaires potentiellement dangereux.
Vous voyez qu’il y a des cas dans lesquels on peut se satisfaire d’une pure logique d’optimisation fondée sur de la corrélation. Il y a des cas dans lesquels c’est insuffisant.
Les cas dans lesquels c’est insuffisant, même dans ces cas-là, il n’est pas nécessairement indiqué de se priver totalement des algorithmes. Les algorithmes peuvent être une première indication. La difficulté, dans ce cas-là, c’est ne pas conférer à la prédiction ou à la recommandation algorithmique une force normative qu’elle ne doit pas avoir. C’est-à-dire qu’elle doit réellement laisser la place pour une délibération humaine, pour qu’on puisse prendre en compte les éléments non-numérisés, non-numérisables qui sont notamment l’interprétation que les gens peuvent faire de ce qui leur est arrivé de faire de leur propre comportement, de leur propres intentions, etc., rendre compte de soi-même.
Gouvernementalité algorithmique
Je dirais, pour faire simple, que c’est un mode de gouvernement qui est nourri essentiellement par des données numériques, donc c’est une modélisation du monde, du monde social, qui est fondée plutôt sur des données quantifiables, sur les sortes de phéromones numériques qui surgissent, qui se collectent en temps réel ou qui prolifèrent au niveau du monde physique plutôt que sur des normes sociales, politiques, idéologiques préétablies. Donc c’est une sorte de gouvernement qui a des prétentions à une sorte d’immanence. C’est comme si c’était le réel qui se gouvernait lui-même à travers les données. Les données qui, dans cette idéologie des big data, une idéologie technique des big data, passe pour être, en quelque sorte, le langage des choses elles-mêmes, donc qui prétendent nous dispenser de toute interprétation, de toute transcription. C’est comme si c’était le monde qui parlait spontanément à travers les données.
Je disais que c’est un mode de gouvernement qui est nourri essentiellement de données, on parle même de données brutes. Quand on dit « données brutes », ça paraît encore un peu plus spontané, alors que les données brutes sont toujours produites et les données ne sont pas des faits, elles sont toujours des effets, des rapports de force, de domination, de situations qu’on n’a pas changées alors qu’on aurait pu les changer. Donc il y a une sorte de naturalisation ou de neutralisation des faits qui en passe par cette transcription du monde physique sous une forme numérique, fragmentée, décontextualisée, désindexée, anonymisée, donc la fabrication des données brutes. Donc nourri essentiellement de données brutes.
Ce qui change, se fondant plutôt sur des données sur la détection de patterns ou de modèles, c’est-à-dire la détection de corrélations au sein de quantités massives de données, plutôt que sur des catégories qui correspondent à des groupements humains socialement éprouvés.
Plutôt que de gouverner les gens en fonction de leur appartenance par exemple à un groupe ethnique déterminé, à une tranche d’âge déterminée ou à une catégorie socioprofessionnelle déterminée, eh bien on va les gouverner, c’est-à-dire qu’on va personnaliser les interactions gouvernementales, les interactions sécuritaires, les interactions commerciales qu’on peut avoir avec eux à travers la détection de leur profil – profil de consommateur, profil de fraudeur potentiel, profil de terroriste potentiel. Donc on voit là aussi un glissement. Ce ne sont plus non seulement les données qui comptent, les données numérisées qui comptent, mais en plus il y a un glissement. La cible de cette forme de gouvernement n’est plus l’actualité, mais c’est la potentialité, ce dont les corps sont capables, ce dont les gens sont capables, etc.
On voit bien, finalement, un profil ce n’est personne, ce n’est personne actuellement. Un profil c’est une sorte d’espace spéculatif qui désigne des opportunités et des risques dont les formes de vie, impersonnelles, sont porteuses.
Ce mode de gouvernement paraît à la fois très objectif dans le sens où, précisément, il n’en passe plus par les catégories prédéterminées, idéologiquement marquées, toujours politiquement débattables, les catégories préétablies, mais se désintéresse complètement de ces catégories et se désintéresse aussi de qui sont les gens. En fait, c’est un mode de gouvernement qui ne gouverne plus les individus en les individualisant, en les identifiant, en les traquant personnellement. C’est pour ça que la notion de données personnelles dans ce mode de gouvernement perd un peu en pertinence au profit de données anonymes qui sont corrélables avec d’autres données anonymes de façon à former des profils de comportement. Ce mode de gouvernement se désintéresse à la fois des individus et à la fois des groupements dans lesquels ils se situent et des groupements qui sont signifiants pour eux.
Finalement ce désintérêt à la fois pour la singularité des vies et pour leur inscription dans des contextes collectifs, c’est ce qui confère à ce mode de gouvernement à la fois une aura d’impartialité très grande mais aussi une sorte d’incontestabilité, une très grande difficulté qu’on peut avoir à contester des décisions qui sont prises sur base de détection d’opportunités et de risques, c’est-à-dire de personnes en fait.