Voix off : Qu’est-ce que le réel ? J’ai vu tant de choses que vous ne pourriez pas croire.
Maxime Lubrano : Numéricité FM, le podcast qui prend un malin plaisir à décortiquer la transition numérique pour de vrai. Bonjour à toutes et tous. Numéricité FM, saison 3, épisode 7. Numéricité FM, c’est le podcast qui s’intéresse à la transformation numérique sous toutes ses coutures et sans tabou.
Après nous être intéressés aux inégalités de genre dans la filière numérique et sur le numérique, on ne pouvait que porter notre attention sur la reproduction, voire l’intensification des inégalités sociales par le traitement technique des demandes d’accès aux droits. Une certaine idée de l’intersectionnalité. Comment une personne en situation de précarité et, la plupart du temps, d’illectronisme, devient la cible privilégiée des algorithmes.
Sur le sujet des algorithmes, on pense évidemment au récent livre enquête de Judith Duportail au sujet de l’algorithme Tinder [L’amour sous algorithme], celui-ci attribue une note en fonction de la désirabilité supposée de l’utilisateur. Sans surprendre personne, les hommes et les femmes ne sont pas notés de la même façon, l’algorithme reproduisant ainsi les biais sociétaux. Non sans lien, on pense également aux biais racistes et sexistes de certaines intelligences artificielles avec le carré 100 de Midjourney interpellé par l’agence BETC sur les résultats de génération d’images concernant la banlieue.
Au croisement des algorithmes et des IA et à l’approche des Jeux olympiques et paralympiques de Paris, on pense également aux problématiques de surveillance de masse.
Une récente enquête Mediapart [1] a mis en lumière le fait que la SNCF voulait tester la reconnaissance faciale — technologie illégale — pour identifier les comportements des usagers. La CNIL n’a pas accepté la dérogation et la SNCF s’est finalement tournée vers un logiciel de vidéosurveillance algorithmique s’appuyant sur des données non biométriques, comme la démarche ou la tenue vestimentaire, ce qui n’est pas sans inquiéter la CNIL.
CTRL-T, Commande T, ouvrons un nouvel onglet de Numéricité FM : « Les algorithmes moteurs d’inégalités croissantes ».
Pour en discuter avec nous, nous avons le plaisir de recevoir Soizic Pénicaud, chercheuse indépendante, consultante et facilitatrice freelance.
Bonjour Soizic.
Soizic Pénicaud : Bonjour.
Maxime Lubrano : Merci d’avoir accepté notre invitation.
Une première question : est-ce que tu pourrais nous présenter ton parcours avant d’être chercheuse indépendante, consultante et facilitatrice freelance ?
Soizic Pénicaud : Oui, tout à fait. J’ai commencé mon parcours sur Internet déjà quand j’avais 12 ans et j’ai un peu grandi sur Internet, sur les forums phpBB [2], pour les personnes qui se souviennent de cette époque. C’est un peu comme cela que je me suis intéressée au numérique.
Pendant mes études, j’ai fait tout à fait autre chose au départ, puisque j’ai fait du droit et de la science politique à l’Université Paris 1 et, ensuite, j’ai fait un master en Éducation et numérique où je m’intéressais plus particulièrement à la manière dont on peut transmettre une culture numérique à des personnes qui ne sont pas techs, où j’ai été aussi amenée à m’interroger, avec mon parcours en sciences sociales, sur ce que le numérique faisait à la société.
Dans le cadre de ce master, je suis rentrée en stage à Etalab [3], qui est une administration, qui est un département de la Direction interministérielle du Numérique [4]. Etalab était en charge de la politique des données des administrations, notamment de l’open data, de l’open source, donc ouverture des codes sources, et puis de la politique de gouvernement ouvert plus généralement. Au sein d’Etalab j’ai fait trois choses :
- la première, j’ai été membre, avec différentes fonctions, de l’équipe du programme Entrepreneur(e)s d’intérêt général [5], un programme de transformation numérique qui intégrait des professionnels du numérique, extérieurs à l’administration, dans des services publics, pour travailler sur des projets en lien avec l’ouverture et l’exploitation des données publiques ;
- j’ai travaillé sur la mise en œuvre du cadre légal de la transparence des algorithmes publics auprès des administrations concernées ;
- et puis, j’étais aussi en charge de créer des liens avec des organisations extérieures à Etalab et extérieures à l’administration. J’ai donc organisé des partenariats, des projets, des interventions dans des conférences, avec des laboratoires de recherche en sciences sociales et en design et puis, aussi, avec des organisations de la société civile, pour utiliser un peu de jargon, donc des associations ou des organisations diverses et variées, en France et à l’étranger.
J’ai travaillé à Etalab de 2017 à 2021. Quand je suis partie, en octobre 2021, j’ai commencé mon activité de freelance, donc d’indépendante. Concrètement, je fais effectivement de la recherche, je fais du conseil et je fais de la facilitation dans un domaine assez large qui concerne les effets du numérique sur les droits humains et les libertés publiques. Je m’intéresse plus particulièrement aux effets du numérique et des technologies qui utilisent des données sur les personnes précaires, sur les groupes minorés – ça va être les femmes, les personnes LGBTQIA+ [lesbien, gay, bisexuel, transgenre, queer, intersexe, asexuel], les personnes non-blanches, tout type de population qui subit des discriminations. Je travaille pour des associations, des fondations et des institutions publiques, en France et à l’étranger.
Par ailleurs, pour finir, je suis également enseignante à Sciences Po Paris où j’ai un cours, depuis trois ans, au sein du master d’affaires publiques, qui s’intéresse à différents cas d’usages d’algorithmes utilisés dans le secteur public, là pareil, en France mais aussi à l’international, pour réfléchir à la gouvernance de l’intelligence artificielle.
Maxime Lubrano : Tu viens justement de nous parler d’algorithmes publics. La dématérialisation des procédures administratives touche de nombreux services publics, si ce n’est la grande majorité maintenant, et ce n’est pas sans lien avec la déshumanisation de l’accès aux services publics, l’automatisation des traitements et aussi des prises de décisions gouvernementales, avec des données, qui sont de plus en plus désincarnées et traitées par des algorithmes et qui sont, pour la plupart, obscurs pour le commun des mortels alors qu’ils sont censés être transparents et publics. Comment ces méthodes de traitement ont-elles été instaurées dans les administrations ?
Soizic Pénicaud : Je pense qu’il y a une idée reçue, qu’on peut dissiper dès maintenant : les algorithmes, ce n’est pas quelque chose de récent dans les administrations. On parle beaucoup, en ce moment, d’intelligence artificielle et de techniques avancées de traitement de données, mais, en réalité, un algorithme, dans sa définition la plus simple, c’est une opération qui, avec des éléments en entrée, donne un résultat en sortie. Une fois qu’on a dit ça, on se rend compte que beaucoup de choses, dans l’administration, peuvent être transformées en algorithmes. On peut distinguer, grosso modo, trois phases et j’en rajouterai, en réalité, une quatrième, trois phases dans l’instauration des algorithmes dans le secteur public.
- On a d’abord une fonction qui est celle de calculer des choses. Donc, très concrètement, ça va être calculer des allocations sociales, ça va être calculer des impôts et cela, en fait, c’est quelque chose qui est une automatisation simple d’une action que les humains pourraient faire à la main, mais qui serait très longue. Je ne sais pas vous, mais moi je n’aimerais pas que les impôts soient calculés à la main par des agents publics, je pense que ça serait une perte de temps et un petit peu risqué. La mise en algorithme du calcul des impôts, par exemple, date des années 50/60, on est donc sur des choses simples.
- Après, on a un autre type d’algorithmes qui va être de permettre, de faire correspondre une offre et une demande. Très concrètement c’est quoi ? Par exemple Parcoursup [6] qui permet d’allouer les places disponibles dans l’enseignement supérieur : on fait correspondre une demande qui est celle des candidats/candidates qui veulent accéder à des formations dans l’enseignement supérieur et les places disponibles en formation. Ça va être aussi les greffons cardiaques des personnes qui ont besoin d’un nouveau cœur et le nombre de cœurs disponibles. Ce sont des choses qui sont plus difficiles à faire manuellement, il va donc, effectivement, y avoir des formules mathématiques pour optimiser ces processus.
- Et enfin, on peut identifier un troisième usage qui, lui, est un peu plus récent, qui va être un usage de prédiction, là, on va prédire. On peut prédire, par exemple, un risque. Je pense à un projet développé par la Direction générale des entreprises, qui s’appelle « Signaux Faibles » [7], qui vise à détecter les entreprises qui sont à risque d’être en difficulté pour les accompagner et les empêcher d’être en faillite. Ça peut être aussi le risque de fraude, fraude fiscale, fraude sociale. Là, on va utiliser des technologies qui sont plus liées, dans notre imaginaire, à des algorithmes avec un traitement de données important, tout ce qu’on va appeler machine learning, donc apprentissage automatisé, etc.
- Je disais que j’en rajouterais une quatrième, parce que maintenant, avec l’intelligence artificielle générative, tout ce qui va être des programmes qui vont permettre à des utilisateurs et utilisatrices de générer du contenu – on pense à ChatGPT –, dans l’administration ce sont beaucoup des choses qui vont permettre d’analyser et de générer du texte. Là, j’ai l’impression qu’il y a nouvelle voie qui se dessine autour de l’utilisation des algorithmes.
Ce qu’il faut retenir, très schématiquement, c’est aussi que quand on dit « algorithmes dans l’administration », on ne parle pas nécessairement de choses qui sont complexes : ça peut être des fichiers excel qui sont aussi des algorithmes.
Maxime Lubrano : On voit bien qu’il y a un impact social des algorithmes, je pense notamment à la troisième phase qui est la prédiction de la fraude fiscale, fraude sociale, qui n’est pas sans reproduire certaines inégalités sociétales, c’est un des cœurs de tes recherches. Qu’est-ce qui, au cours de ton parcours, a éveillé ton intérêt sur les questions d’algorithmie ?
Soizic Pénicaud : C’est une très bonne question. D’ailleurs, pour rebondir sur cette question d’impact sur la société, je pense que tous les types d’algorithmes utilisés dans l’administration peuvent avoir des effets importants. Par exemple, si on calcule mal vos allocations sociales, ça peut avoir des conséquences assez radicales sur votre vie, donc, les systèmes les plus simples peuvent avoir des conséquences importantes.
Ce qui a éveillé mon intérêt sur la question, c’est notamment dans le cadre de mon travail à Etalab, au sein du programme Entrepreneur(e)s d’intérêt général on développait beaucoup d’algorithmes, concrètement. Dans le même temps, il y avait aussi l’entrée en vigueur de la loi pour une République numérique [8] qui prévoyait de nouvelles obligations pour les administrations en matière d’algorithmes publics et plus généralement, dans ma vie personnelle, j’ai des engagements féministes, j’ai des engagements antiracistes, des engagements pour les droits des personnes migrantes, du coup je sentais aussi que quand on dit « algorithmes publics », ça fait peur à beaucoup de gens. Déjà, le mot « algorithme » est très long, il y a une connotation très technique. De par mes engagements militants et mon parcours en sciences sociales, je sentais que c’était un sujet qui était important, parce que, souvent, il était réduit à une question technique, alors que quand on parle d’algorithmes dans le secteur public, on parle toujours de politiques publiques.
Cela m’intéressait aussi parce que j’entendais beaucoup, autour de moi, un discours très positif autour de l’utilisation des données dans l’administration et j’ai toujours tendance à prendre le contre-pied de ce qu’on me dit, ce n’est pas forcément une qualité, en tout cas je me pose des questions. Donc, quand on me disait « les données c’est super, les algorithmes c’est super », je disais « OK, c’est super, mais c’est super pour qui ? C’est super pour l’administration ? C’est super pour les citoyens/citoyennes ? Qu’est-ce qu’on entend par super ? Etc. » C’est donc un peu comme ça que j’ai commencé à tirer les fils de la question.
Maxime Lubrano : Tu nous en as parlé. Tes premières accointances avec les algorithmes s’inscrivent dans la suite de la promulgation de la loi du 7 octobre 2016, pour une République numérique, dite loi Lemaire. Une des dispositions de cette loi exige la transparence des algorithmes publics, obligeant l’ensemble des agences publiques à lister, publier les principaux outils algorithmiques de prise de décision qu’elles utilisent. Est-ce que tu peux nous parler, justement dans le cadre de cette disposition, de tes travaux avec Simon Chignard qui ont conduit à l’édition du Guide de la transparence des algorithmes publics.
Soizic Pénicaud : Oui, tout à fait. Déjà, un tout petit rappel sur ce que la loi pour une République numérique a introduit en termes d’obligations pour les administrations : toute administration qui utilise un algorithme dans le cadre d’une décision administrative individuelle est soumise à trois obligations :
- la première, c’est une obligation de mention explicite. Elle doit indiquer qu’elle a utilisé un algorithme pour prendre la décision, même si cette décision n’est pas complètement automatisée, je le précise parce que c’est important ;
- la deuxième obligation, c’est une obligation qu’on pourrait qualifier d’explication globale, celle que tu as mentionnée, qui est décrire le fonctionnement des algorithmes qui sont utilisés. Donc, pour cela, il faut les lister et il faut ensuite expliquer comment ils fonctionnent d’un point de vue général ;
- et la troisième, c’est une obligation d’explication individuelle qui est que l’administration doit pouvoir fournir à la personne qui en fait la demande les raisons pour lesquelles la décision a été prise et le cheminement qui a été opéré par l’algorithme pour mener à cette décision.
Ce sont donc les trois obligations.
La loi pour une République numérique est assez laconique, c’est-à-dire que ça disait : vous devez mentionner, vous devez rendre transparent, et pas grand-chose d’autre. Donc, le travail que nous avons été en charge de mener avec mon collègue Simon Chignard, qui est vraiment celui qui a commencé ces travaux, je pense qu’il faut lui rendre ce crédit-là, c’est de travailler sur la concrétisation de ces dispositions légale pour les administrations. En pratique, ça a mené, entre autres, à l’édition de ce Guide des algorithmes publics [9] qui est toujours disponible, en accès libre, sur Internet ; si vous tapez « Etalab guide algorithmes publics » vous allez le trouver.
L’objectif était, par exemple, de proposer un modèle de mention explicite pour que les administrations n’aient pas à réinventer la roue et qu’elles puissent utiliser tout de suite un modèle.
Ça a été aussi travailler sur un modèle d’inventaire des algorithmes publics, qu’on a notamment élaboré en collaboration, en coconstruction, avec des administrations qui voulaient se saisir du sujet, notamment la ville d’Antibes, la Métropole de Lyon, le ministère de l’Éducation nationale et j’en oublie. L’idée c’était vraiment de faire un travail collectif pour que les obligations légales puissent être facilement prises en main par ces administrations.
Maxime Lubrano : Pourquoi est-ce important de rendre explicable un algorithme ? Comment pourrait-on s’assurer qu’il opère sur des bases transparentes, compréhensibles par toutes et tous et qu’il rende des comptes justement à ceux qui sont concernés ? Ce sont deux des trois obligations que tu as citées.
Soizic Pénicaud : Tout à fait. Il y a aussi quelque chose d’intéressant, c’est que, en fait, ce n’est pas l’algorithme qui rend des comptes, c’est l’administration qui utilise les algorithmes. Je pense que c’est important de le rappeler, parce que, souvent, on a tendance à vouloir imputer une responsabilité à l’outil, alors qu’il faut se rappeler, pour la resposnavbilité, qu’il y a des humains derrière et qu’il y a une administration. On n’est pas non plus sur un fonctionnement qui est très différent de celui des autres politiques publiques, c’est juste qu’à l’intérieur de celle-là il y a un outil qui peut parfois faire un peu peur, mais, en réalité, l’administration est toujours redevable de son action, donc, là, la chose n’est pas différente.
Ceci étant dit, pourquoi est-ce important d’expliquer les algorithmes publics ? Il y a trois utilisations d’une explication possible, si on schématise encore une fois :
- la première c’est comprendre ; si on a été sujet/sujette à une décision algorithmique, c’est notre droit et c’est important de savoir pourquoi cette décision a été prise ; ça peut être aussi important, quand on est un ou une agente publique et qu’on va utiliser ces systèmes, de comprendre à la fois comment l’outil fonctionne mais aussi quelles sont ses limites, pourquoi on l’utilise et comment on devrait l’utiliser pour rester en maîtrise de son travail. C’est la première chose ;
- la deuxième chose, c’est débattre. Une fois qu’on a compris, on peut choisir de discuter de ces systèmes et peut-être avoir une réflexion un peu plus collective autour de ce que ces outils vont avoir comme effets ou de quels paramètres devraient rentrer en compte ;
- et, la troisième, c’est contester. Là, on peut vraiment rentrer dans une démarche un peu plus oppositionnelle mais qui est très importante. Je reprends l’exemple du calcul des droits sociaux ou même des impôts, c’est important de comprendre comment ça a été calculé pour pouvoir, si on se rend compte qu’il y a eu une erreur, s’opposer à cette erreur. Si on n’a pas cette information, c’est impossible de le faire. Il y a eu une affaire, je crois que c’était avec Affelnet, l’algorithme qui permet l’allocation des places en lycée en Île-de-France : des parents ont demandé l’accès au calcul du score Affelnet de leur fille et se sont rendu compte qu’il y avait eu des erreurs, donc, ils ont été capables, justement, de mener des actions sur la base de ces constats.
Donc comprendre, débattre et contester.
Je pense que la question qu’il faut aussi et, peut-être surtout, se poser, c’est : qu’est-ce qu’il faut rendre explicable ? Parce que, très souvent, on se centre sur l’explication technique du système et, en faisant ça, il y a deux problèmes.
Le premier problème, c’est que quand on utilise des systèmes notamment un peu avancés, dont on dit qu’ils sont, entre guillemets, « des boîtes noires », il y a des impossibilités techniques à expliquer certaines choses. Quand je dis « systèmes techniques », ce sont, par exemple, les systèmes de reconnaissance d’images. En fait, c’est très difficile, presque impossible, de comprendre pourquoi l’image a été reconnue comme chien ou chat, en tout cas c’est possible de le comprendre, mais c’est très difficile de l’expliquer en termes humains, parce que l’algorithme ne raisonne pas sur des paramètres qui nous parlent. Dans l’administration, ça n’arrive pas souvent, ce n’est pas forcément le cas.
L’autre souci de ça, c’est qu’en se concentrant uniquement sur les paramètres techniques, on occulte le reste des choix, notamment des choix politiques qui ont été faits autour de ces systèmes. Je m’explique. Par exemple le choix d’utiliser un algorithme dans le cadre de l’accès à l’enseignement supérieur, donc Parcoursup. On peut expliquer pourquoi une personne a été prise dans une filière ou non. Déjà, là, il y a un petit bémol parce que, en réalité, ces explications-là sont couvertes par une disposition légale et elles ne sont pas tout à fait transparentes publiquement. Au-delà de ça, si on se concentre uniquement sur cette partie, ou sur l’ouverture du code source de Parcoursup, on occulte la question du pourquoi on a mis en place un algorithme à l’origine, notamment que cet algorithme a été mis en place parce qu’il n’y a pas assez de places dans l’enseignement supérieur. Si on prend en considération ce choix de politique publique, c’est là où on peut aussi débattre et contester cette politique publique et dire « cette justification – il n’y a pas assez de places – est-ce qu’on ne peut pas lui opposer l’argument de : ouvrons plus de places dans l’enseignement supérieur » ?
Du coup, très rapidement, ce que je dis autour de ça c’est qu’il est très important de se poser la question de ce qu’on doit rendre explicable. On se rend compte que l’explication et la justification concernent beaucoup de choix humains et politiques et pas forcément des paramètres techniques.
Maxime Lubrano : Tu nous disais. au cours de la présentation de ton parcours, ouverture des données et des codes sources, plus largement de l’action publique, autrement dit open data, open source, open gov ; selon toi, est-ce qu’il existe une approche française sur les questions algorithmiques et, si oui, est-ce que tu en tires des leçons ?
Soizic Pénicaud : Je dirais que les obligations de transparence algorithmique c’est assez intéressant, en réalité, d’un point de vue juridique, parce que ce sont des obligations qui se rattachent au droit d’accès aux documents administratifs. On est donc sur une adaptation du droit administratif à des nouveaux enjeux numériques. C’était assez pionnier à l’époque, je crois que ça l’est toujours. On a eu pas mal de personnes, notamment des chercheurs/chercheuses en droit de l’étranger qui s’intéressaient à cette démarche-là, parce que, encore une fois, ça permet d’asséner à nouveau que notre droit donne assez d’outils pour réguler des nouveaux instruments de l’action publique, donc les algorithmes, mais qu’il faut juste l’adapter. Je dirais que c’est une approche qui est assez intéressante.
L’autre point intéressant en France, c’est qu’il y a beaucoup de chercheurs et chercheuses qui travaillent sur le sujet des algorithmes publics. Je dis « beaucoup », je crois que c’est parce que j’ai un biais et que c’est, en réalité, un petit groupe, en tout cas les recherches sont assez poussées, notamment des recherches qui ne portent pas forcément sur l’intelligence artificielle. Je pense, par exemple, aux travaux de Denis Merigoux [10], à l’Inria [Institut national de recherche en informatique et en automatique], qui travaille sur l’explicabilité du calcul socio-fiscal. Là, on n’est pas dans des systèmes de machine learning, pour reprendre des termes un peu jargonneux. Ces travaux sont très intéressants puisqu’ils touchent à des points clés de l’action publique. Je dirais donc qu’il y a un terreau assez fertile.
En termes peut-être de limites ou de choses pour lesquelles on pourrait aller encore plus loin : le problème avec le cadre légal qu’on a actuellement sur la transparence, c’est qu’il n’y a pas de sanctions, donc, pour les administrations, il n’y a pas forcément de conséquences négatives à ne pas mettre en œuvre ces obligations, non pas que les administrations devraient nécessairement mettre en œuvre la loi uniquement quand il y a des sanctions, mais on voit que c’est quand même une limite de ce cadre-là. Et c’est aussi un cadre qui ne porte que sur la transparence et pas sur les discriminations. En revanche, il y a déjà eu de travaux de la CNIL et du Défenseur des droits sur les discriminations algorithmiques.
La dernière chose que je dirais aussi, c’est que les administrations, et je parle uniquement des algorithmes dans le secteur public, ne regardent pas forcément ce qui se passe à l’étranger pour en tirer, justement, des leçons. Je pense qu’il y a beaucoup de leçons à tirer des tendances qu’on observe, notamment dans l’Union européenne où, par exemple, il y a eu récemment beaucoup de scandales autour des algorithmes utilisés dans les systèmes de sécurité sociale, je pense aux Pays-Bas, je pense à la Pologne, il y a eu aussi des affaires en Espagne, et tous ces systèmes fonctionnent à peu près comme ceux qu’on a en France, mais on a tendance à penser, en tout cas, c’est ma perception des choses, qu’il y a un peu une exception franco-française et que nous sommes différents alors que je pense qu’on aurait tout intérêt à regarder ce qui se passe à l’étranger en termes de scandale et puis aussi, bien sûr, en termes de bonnes pratiques, il y a plein de choses qui se font.
Maxime Lubrano : Sur cet enjeu de transparence, justement, selon toi quels sont les publics à mobiliser pour une meilleure explication des algorithmes de prise de décision, ce qui participerait, in fine, à une meilleure information et lisibilité de l’action publique ? En 2023, il y a eu les États généraux de l’information [11]. Quel rôle, peut-être pour la société civile, dans la publicité des algorithmes publics ?
Soizic Pénicaud : Encore une fois, quand on parle d’algorithmes publics, on parle toujours de politiques publiques, donc on parle de politiques publiques sectorielles dans le domaine de la santé, dans le domaine de l’éducation, dans le domaine de la sécurité sociale, etc. Pour moi, il y a un vrai enjeu à réussir à intégrer les personnes, les associations qui travaillent sur ces sujets, qui ne sont pas numériques, dans les débats autour des algorithmes.
J’avais parlé, un peu avant, de l’algorithme « score cœur », d’allocation des greffons cardiaques, qui est un algorithme développé par l’Agence française de biomédecine. Ils ont des discussions assez collégiales, y compris avec des associations de patients, des médecins, etc., sur les paramètres, les critères à appliquer pour organiser l’allocation des greffons. Du coup, je pense qu’il y a un vrai enjeu à le faire pour des associations de tous les secteurs.
D’autres publics qui sont aussi intéressants, ce sont les journalistes, parce que c’est important et intéressant de leur demander ce qui peut leur être utile comme informations pour mieux comprendre ces systèmes.
Après, j’irais plus loin. L’un des dangers de se concentrer uniquement sur la transparence, c’est aussi d’oublier pourquoi on rend les choses transparentes, parce que les choses peuvent être très transparentes, mais très injustes, et si on fait de la transparence uniquement comme un exercice où on va cocher une case de mise en conformité, on passe un peu à côté du sujet qui est qu’on veut une action publique juste, une égalité de traitement entre les administrés et on veut que les citoyens et les citoyennes aient accès à leurs droits. Une fois qu’on a dit ça, on peut se décentrer de la question de la transparence, qui est nécessaire mais pas suffisante, notamment se poser la question de l’évaluation ou de l’identification des conséquences négatives en amont, ça veut dire pendant qu’on conçoit l’algorithme, et en aval, donc après que l’algorithme ait été mis en place. Comment fait-on en sorte d’impliquer les personnes qui vont être concernées par ces systèmes, agents publics comme citoyens et citoyennes, pour s’assurer un maximum que ces algorithmes sont mis en place pour des raisons qui servent vraiment l’intérêt général et, ensuite, d’une manière qui est véritablement équitable, juste, et qu’ils ne causent pas plus de problèmes qu’ils n’apportent de solutions ?
Maxime Lubrano : Si on s’intéresse maintenant davantage à tes récentes recherches, on voit que tu fais preuve à la fois de pédagogie et de politique pour alerter sur certaines dérives de la prise de décision automatisée par des algorithmes. On peut notamment lire, dans les articles du Monde que tu as coécrits avec deux de tes confrères et une de tes consœurs du Collectif de journalistes d’investigation indépendant Lighthouse Reports au sujet de votre enquête sur les algorithmes des CAF [12], je cite : « Suspect idéal, méthode de ciblage appuyée sur des caractéristiques dont l’utilisation est en principe prohibée par les législations française et européenne. » Est-ce que ce monstre algorithmique a échappé à son créateur pour toujours mieux discriminer, cibler les plus précaires qui sont souvent victimes d’illectronisme ?
Soizic Pénicaud : J’aime bien la formulation de ta question. En fait, ça me rappelle un scandale qui a eu lieu en Angleterre, en 2020, autour d’un algorithme qui avait prédit les notes du bac des étudiants et c’est comme cela que les étudiants et étudiantes avaient reçu leurs notes du bac. Boris Johnson, le Premier ministre britannique de l’époque, avait pris la parole après tout le scandale qui avait donné lieu à l’annulation de cette procédure algorithmique, en disant « vous avez été victimes d’un algorithme mutant. » En réalité, personne n’a été victime d’un algorithme mutant, ce sont des humains qui ont programmé un algorithme, l’algorithme n’a pas de conscience propre. Encore une fois on parle d’une politique publique.
Du coup, peut-être pour juste reparler des recherches qu’on a menées avec Lighthouse Reports [13] qui est un collectif de journalistes que j’ai rejoint, à cette occasion, en tant que chercheuse et qui a travaillé en partenariat avec des journalistes du Monde pendant six mois, en parallèle d’ailleurs, de travaux menés par La Quadrature du Net sur le même algorithme [14] c’est intéressant de le mentionner. Ce qui a été mis au jour, c’est le code source d’un algorithme utilisé par la CNAF [Caisse nationale des allocations familiales] depuis 2010, et là c’était le modèle utilisé entre 2014 et 2019, pour attribuer à chaque dossier allocataire un score de risque correspondant à la probabilité qu’un dossier comporte des erreurs frauduleuses ou non ; si on est tout à fait rigoureux, c’est ça l’idée. Il faut savoir aussi que ce sont des choses qui étaient précédemment documentées par des chercheurs, j’y reviendrai un peu après.
Est-ce que le monstre algorithmique a échappé à son créateur ? La réponse rapide c’est non, pas du tout. Ce qui est aussi intéressant de noter, c’est que l’algorithme fonctionne bien pour prédire si un dossier va comporter des erreurs, donc, mathématiquement, le système fonctionne.
En revanche, le problème, c’est que les personnes qui reçoivent les scores de risque les plus élevés sont souvent des personnes qui sont dans des situations de grande précarité, notamment les mères célibataires, isolées, les personnes bénéficiaires de l’AAH, l’Allocation Adulte Handicapé, qui travaillent, ça va être aussi des personnes qui vont avoir des revenus instables, donc qui vont cumuler les petits boulots, qui vont faire plusieurs types de missions. Toutes ces personnes-là ont des scores de risque plus élevés, elles vont donc être amenées à être plus contrôlées, notamment via des contrôles sur place qui sont des moments où un contrôleur ou une contrôleuse de la CAF se déplace chez les personnes, leur demande un nombre très important de justificatifs pour contrôler l’intégralité du dossier. Ce sont des situations décrites par les allocataires comme stressantes, humiliantes, coûteuses aussi parce qu’il y a beaucoup d’impression de documents à faire, etc.
Le problème, dans tout cela, c’est que la raison pour laquelle ces personnes sont le plus contrôlées c’est notamment parce que, effectivement, leurs dossiers ont statistiquement plus de chances de contenir des erreurs, parce que ce sont les dossiers les plus complexes et elle touchent des droits qui sont sous condition de ressources, par exemple le RSA et les autres types de minima sociaux.
L’argument de la CNAF est de dire que oui, statistiquement c’est vrai que ce sont les dossiers qui comportent le plus d’erreurs, donc ce sont les dossiers qui doivent être le plus contrôlés.
Le problème, quand on dit ça, on oublie que si les dossiers comportent des erreurs c’est parce que la législation est très complexe, c’est parce que les allocataires ne sont pas forcément bien informés au moment où ils doivent déclarer leurs ressources, donc, il y a un biais dans les données, non pas un biais mathématique, mais un biais qui découle d’une politique publique qui va provoquer une complexité dans les dossiers de ces allocataires. C’est pour cela que c’est toujours important de décentrer l’algorithme de ces questions et de reparler de la politique publique. Vincent Dubois, un sociologue qui a notamment écrit un ouvrage Contrôler les assistés – Genèses et usages d’un mot d’ordre qui est paru en 2021, le montre : cet algorithme de score de risque a été développé et il est monté en puissance dans le système de contrôle des CAF, dans un contexte où les CAF ont été encouragées à effectuer de plus en plus de contrôles pour une efficacité financière, c’est-à-dire pour obtenir des rentrées d’argent.
Donc, quand on replace ces questions-là dans une politique publique, on voit qu’on peut « dédramatiser », entre guillemets, le problème de l’algorithme en lui-même, mais c’est presque plus grave : en fait, on a une discrimination qui est causée par le système beaucoup plus global, qui est un système autant politique que technique.
Maxime Lubrano : On voit très bien que la technique est utilisée seulement pour faire rempart à la fraude, mais pas pour cibler le non-recours aux droits. Comment peut-on expliquer, par exemple, que le data mining, la technique sur laquelle l’algorithme s’appuie pour cibler les fraudeurs ou les potentiels fraudeurs, ne soit pas aussi utilisé pour identifier les personnes qui ont des droits mais qui n’y recourent pas ?
Soizic Pénicaud : Là encore, il y a une explication historique. Encore une fois, je fais référence aux travaux de Vincent Dubois qui montrent que comme on était dans une dynamique et dans des injonctions, pour la CNAF, d’intensifier les contrôles, c’est pour cela que le data mining a été utilisé à la base. Désormais, il faut savoir qu’il y a quand même des initiatives, de la part de la CNAF, d’avoir recours au data mining pour lutter contre le non-recours, mais sur cela, je voudrais souligner deux choses.
La première chose : au-delà de lutter contre le non-recours, l’algorithme tel qu’il est utilisé actuellement, le contrôle tel qu’il est orienté actuellement, se base beaucoup plus sur la détection de personnes qui auraient perçu trop d’argent de la CAF que de personnes qui n’en auraient pas perçu assez. Si on se plonge dans la technique, le modèle est entraîné et va donc apprendre à reconnaître des dossiers qui sont à risque de comporter des erreurs qui vont générer de l’argent pour la CAF, qui vont générer des indus, le fait que les allocataires aient perçu trop d’argent ; il n’est pas entraîné sur les modèles qui génèrent un moins perçu, ce qu’on appelle un rappel dans le jargon de la CAF, pour les allocataires. Pourquoi est-ce important de le préciser ? Parce que la CNAF dit que le modèle permet d’identifier, dans 30 % des cas, des rappels, donc des cas où les allocataires n’ont pas perçu assez d’argent. Mais en fait, statistiquement, ça c’est un faux positif dans leur modèle, c’est un effet de bord qui n’est pas forcément censé arriver. Donc, même au-delà de s’intéresser au non-recours aux droits, quand on plonge dans le code de l’algorithme, on peut déconstruire et détricoter les arguments de politique publique de la CNAF qui dit « nous utilisons cet algorithme pour le juste droit, c’est-à-dire que les allocataires ne touchent ni trop peu ni trop d’argent », en l’occurrence, on essaye surtout que les allocataires ne touchent pas trop d’argent.
La dernière chose que je dirais sur la question de l’accès aux droits et de l’utilisation des données, ce que la CNAF appelle data mining mais qui sont donc des algorithmes et du machine learning, pour favoriser l’accès aux droits des personnes qui n’y auraient pas recours, c’est qu’il y a une tendance à vouloir régler cette question de l’accès aux droits par le numérique qui n’est pas forcément fructueuse dans les faits. Pour ces réflexions, je vous renvoie aux travaux d’une sociologue qui s’appelle Clara Deville [15], qui a énormément travaillé sur la question du non-recours et qui a des réflexions très intéressantes sur le rôle du numérique dans cette question.
Ce qu’on retrouve aussi et qui me paraît être important de souligner, c’est que le discours actuel est : on va aller dans l’administration proactive, la solidarité à la source, c’est-à-dire qu’on va utiliser les données pour lutter contre le non-recours et aussi pour faciliter l’accès aux droits des personnes en préremplissant des formulaires avec les données que l’administration a à sa disposition. Sur le papier, et pour un très grand nombre de personnes, je pense que ça va bien fonctionner, notamment pour les situations simples où, par exemple, on a accès aux données de l’employeur, donc les formulaires pourront être pré-remplis avec les salaires, etc.
Le problème de cette politique publique, c’est que ça ne va pas régler la situation des personnes aux dossiers les plus complexes qui doivent déclarer des ressources, par exemple l’argent qu’elles touchent exceptionnellement de leur famille, qui va s’appeler une aide familiale, qu’on est censé déclarer ; on est censé déclarer les ventes réalisées sur Leboncoin ; on est censé déclarer tout type de ressources auxquelles l’administration n’a pas accès en dehors des situations de contrôle. Donc, on va se retrouver dans une politique publique d’administration proactive qui va améliorer le quotidien de certaines personnes, mais qui, en tout cas, va continuer à ne pas améliorer voire désavantager les personnes aux dossiers les plus complexes, qui sont, on le rappelle, celles qui sont déjà les plus touchées par les contrôles.
Je pense donc qu’il y a une vigilance à avoir sur cette surenchère d’utilisation des données dans l’administration et il faut toujours se reposer la question de quels problèmes on essaye de régler, à quelles populations on s’adresse, et différencier aussi entre les types de populations et s’assurer que, en fait, on va apporter une solution qui va répondre à un vrai problème qui a été identifié, d’autant que plus on collecte de données sur les personnes, plus il y a des enjeux importants de sécurité des données et une responsabilité aussi de l’administration de traiter avec soin toutes ces informations qu’elle a sur les allocataires qui, on le rappelle, ne lui appartiennent pas, qu’elle détient, mais qui appartiennent aux allocataires.
Maxime Lubrano : Quelles ont été les répercussions de la parution de votre enquête ? On a vu, dans les articles, que le directeur de la CAF, il me semble, parle de boîte noire. Est-ce que la recette de l’algorithme de la CNAF va rester aussi secrète que celle du Coca ?
Soizic Pénicaud : Oui, l’ancien l’ancien directeur de la CNAF parlait de boîte noire. L’algorithme actuel, utilisé par les CAF, est connu par la CNAF, par certaines personnes de la CNAF, il n’est pas connu par les contrôleurs et contrôleuses, mais il est quand même connu et il est assez simple, en réalité, c’est pour cela que Le Monde, Lighthouse Reports et, dans leur propre enquête, La Quadrature du Net, ont été capables de le décortiquer aussi facilement, donc, en réalité ce n’est pas une boîte noire, en tout cas si on a certaines compétences techniques et il est plutôt simple à comprendre.
Il y a eu plusieurs répercussions, notamment une plainte par le président de la Seine-Saint-Denis auprès de la Défenseure des droits pour, justement, mener l’enquête sur différentes discriminations.
J’ai l’impression, à titre personnel, que ça aussi sensibilisé, dans une certaine mesure, l’opinion publique.
Des économistes se sont prononcés sur le sujet, Thomas Piketty, Esther Duflo.
Ce sont donc des choses qui commencent à rentrer dans le débat public et on verra, du coup, ce que ça va donner, en termes d’enquête, par certains pouvoirs publics.
Le point de vigilance que j’aurais aussi, c’est de ne pas réduire la question du numérique dans les CNAF et les autres organismes de Sécurité Sociale à la question de la discrimination algorithmique et à la question de cet algorithme de contrôle en particulier. Il y a aussi pas mal de problèmes, d’enjeux avec les algorithmes de calcul des droits qui ne sont pas non plus expliqués aux allocataires et qui sont aussi très difficiles à prendre en main par les agents de la CAF eux-mêmes ; il y a des enjeux autour des logiciels de gestion utilisés par les agents, ce qui provoque de la souffrance au travail ; il y a des enjeux d’interconnexion de données avec l’administration proactive dont on a parlé.
L’algorithme de contrôle, on l’a vu, est lié à une politique de contrôle beaucoup plus large et, du coup, je pense que c’est extrêmement intéressant d’avoir une affaire qui est mise au jour avec un algorithme, mais, encore une fois, il ne faut pas oublier, derrière, tous les autres enjeux de politiques publiques.
Je ne l’ai pas mentionné, mais c’est important, la suspension automatique des droits par les contrôles automatisés qui sont faits en passant en revue différentes bases de données.
En tout cas notre objectif, et là quand je dis « nous », ce sont les collectifs d’accès aux droits avec lesquels je travaille également, c’est de continuer à élargir le débat autour de tous les sujets qui ont à voir au numérique et de ne pas seulement se focaliser sur un seul outil au risque de passer à côté, encore une fois, des questions les plus importantes.
Maxime Lubrano : J’ai une avant-une dernière question qui nous permet, justement, de faire un pas de côté. De plus en plus d’intelligences artificielles génératives sont utilisées et reproduisent, voire amplifient des discriminations et stéréotypes ethniques ou sexistes. Comment peut-on se prémunir de ces dérives, que ce soient celles des algorithmes ou celles des intelligences artificielles ?
Soizic Pénicaud : Déjà, moi je ne fais pas la différence entre algorithmes et intelligence artificielle, notamment si on reprend la définition de l’OCDE, ce n’est pas la mienne : une intelligence artificielle, c’est un système qui fonctionne grâce à une machine et qui est capable d’influencer son environnement en produisant des résultats pour répondre à des objectifs. Donc techniquement, tout type d’algorithme, et là je reparle du fichier excel et ça peut être maintenant l’intelligence artificielle générative, c’est de l’intelligence artificielle.
L’intelligence artificielle générative, on l’a dit au début de cette émission, ce sont des systèmes qui sont assez récents, qui permettent de créer du contenu, du contenu écrit, donc ChatGPT, on pense aussi à Midjourney que tu as mentionné en introduction, qui permet de produire des images ; il y a tous les logiciels qui permettent, du coup, de faire ce qu’on appelle les deepfakes, les hyper-trucages, on en a entendu parler assez récemment, des choses qui permettent de produire de la voix. C’est donc de tout cela dont on parle quand on parle d’intelligence artificielle générative qui, effectivement, comporte des biais, on l’a vu. Par exemple, Midjourney, DALL-E, toutes les IA génératives d’images ont tendance à produire des représentations très stéréotypées du monde, que ce soit différents pays ou différentes professions, ce genre de choses.
Il y a des réponses, je vais le faire très rapidement parce que c’est une question d’ouverture, mais, sur ce point spécifique des biais, on peut travailler à avoir des données qui sont de meilleure qualité, soit plus localisées, soit avec moins de biais dans les représentations, soit, par exemple, pas de contenus haineux dans des jeux de données textuelles.
Il y a aussi un enjeu de qui va concevoir ces produits, notamment avoir de la diversité dans les concepteurs et conceptrices, même si je pense que c’est une solution qui est beaucoup mise en avant et qui n’est pas aussi efficace qu’on le dit ; s’il y a des équipes plus diversifiées, je ne pense pas que ce soit automatique que ça amène à des algorithmes et des systèmes complètement justes et sans biais, mais c’est une autre question.
Après, il y a une grande discussion en ce moment en matière de gouvernance de l’intelligence artificielle qui est l’établissement de standards, y compris des standards d’évaluation, parce que, actuellement, en fait, on n’a pas de méthode vérifiée comme dans d’autres milieux, les médicaments ou ce genre de choses, pour s’assurer que ces systèmes ne comportent pas de biais. Là, c’est une discussion qui est beaucoup plus de haut niveau et technique sur les standards, mais il y a aussi la question de qui décide quand une IA est biaisée ou pas.
En fait, encore une fois je vais décentrer. Je pense que c’est important de se poser la question des biais à l’intérieur de ces systèmes, mais, ensuite, il y a aussi des questions beaucoup plus larges qu’il est important de se poser, notamment le coût environnemental de ces systèmes, la question de qui produit les données, est-ce que les personnes ont donné leur accord pour que les données soient utilisées ; il y a eu aussi plein de questions sur le copyright dans ces systèmes-là ; la question de qui entraîne les modèles, on sait que les modèles sont entraînés par des personnes qui sont très peu payées dans des pays du Sud, par exemple au Kenya, et qui voient des choses horribles toute la journée pour s’assurer que les modèles sont ensuite plus « safes », entre guillemets pour les personnes qui les utilisent, ce sont des conditions de production qu’il faut aussi remettre en cause ; et puis la question de pourquoi ces outils sont utilisés. Par exemple, on peut avoir des systèmes de génération d’images qui vont être, entre guillemets, « pas biaisés », mais qui vont être utilisés pour créer des deepfakes, donc des hyper-trucages contre des femmes, donc des violences de genre, souvent aussi avec des violences à caractère raciste, etc.
Donc, le fait de réduire les discriminations dans les outils ne doit pas nous empêcher de poser des questions encore une fois beaucoup plus larges sur : à quoi ces outils servent-ils dans la société, comment sont-ils produits, par qui et pourquoi ?
Maxime Lubrano : Enfin, traditionnelle dernière question de Numéricité FM : pour le prochain numéro, qui aimerais-tu entendre à notre micro, sachant que le directeur de la CNAF peut être une réponse, pas forcément la meilleure ?
Soizic Pénicaud : Je trouverais super intéressant d’entendre le directeur de la CNAF, mais j’ai une autre suggestion. Je vous proposerais bien d’entendre Camille Girard-Chanudet [16] qui est docteure en sociologie, qui a récemment soutenu sa thèse. Son terrain c’était les annotatrices des décisions de justice à la Cour de cassation et, c’est assez en lien avec la dernière question que tu as posée. Elle travaille vraiment sur la production de l’intelligence artificielle. Elle est absolument passionnante pour toute personne intéressée par la transformation numérique de l’action publique ; c’est quelqu’un à suivre absolument.
Maxime Lubrano : Un immense merci, Soizic, d’avoir accepté notre invitation, d’avoir répondu sans détour à toutes ces questions.
Nous serons certainement amenés à renouveler cet exercice ensemble pour discuter d’un autre de tes sujets qui est la violence sur les réseaux sociaux, en résumé
Soizic Pénicaud : Avec plaisir.
Maxime Lubrano : Merci également à nos chers auditeurs et auditrices pour leur attention et retrouvez-nous très prochainement pour un nouvel épisode de Numéricité FM. D’ici là n’hésitez pas à écouter ou réécouter l’un des 26 autres épisodes.