Exorciser les biais algorithmiques de nos machines

Voix off : Esprit, es-tu là ?, le podcast qui invoque votre esprit critique en ligne avec Vous ! par Macif et Chut ! Magazine.
Pour ce deuxième épisode, la journaliste Sylvie Fagnart revient sur la conception des stéréotypes en ligne et sur les actions à mener pour ne pas toujours être exposés à ces contenus qui nous enferment dans une bulle.
Bonne écoute.

Sylvie Fagnart : En ce petit matin de février 2023, Porcha Woodruff s’apprête à conduire ses deux petites filles à l’école quand la police débarque dans leur appartement de Detroit [1]. Les agents menottent la jeune femme de 32 ans, enceinte de huit mois, direction le centre de détention de la ville. Porcha Woodruff va y passer plus de 11 heures, angoissée, le dos douloureux, des contractions l’étreignent régulièrement. Et puis, le motif de cette arrestation la sidère : la police la soupçonne d’un carjacking récent. Porcha Woodruff ne veut pas croire qu’avec son gros ventre et ses réflexes de femme en fin de grossesse, on puisse la soupçonner d’un tel méfait. Et pour cause ! Les policiers de Detroit viennent de commettre une erreur. Une erreur due à leur logiciel de résolution des crimes et délits, un logiciel de reconnaissance faciale développé par la société DataWorks Plus. Une vieille photo de Porcha, datant d’une époque où elle conduisait sans permis, a matché avec les images de la caméra de surveillance ayant filmé le carjacking. Porcha Woodruff est la sixième personne accusée à tort sur la base d’un système de reconnaissance faciale, la première femme. Elle a, en revanche, un point commun avec ses cinq compagnons d’infortune : comme eux, elle est noire.
L’histoire de Porcha Woodruff est l’une des illustrations des dangers bien réels des biais qui plombent les dispositifs d’intelligence artificielle.
Pour tenter de démêler quels sont ces biais et quels dangers ils représentent, il faut déjà comprendre comment fonctionne ce qu’on appelle l’intelligence artificielle aujourd’hui.
Stephan Clémençon est chercheur en mathématiques appliquées à Télécom Paris. C’est l’un des meilleurs spécialistes du machine learning [2]. Alors justement, qu’est-ce que le machine learning ?

Stephan Clémençon : C’est une branche de l’intelligence artificielle, aujourd’hui c’est le paradigme majeur de l’intelligence artificielle, c’est une discipline qui est à l’interface des mathématiques et de l’informatique et qui vise à développer les algorithmes qui permettent aux machines d’apprendre et d’apprendre à partir de données.
Tous les succès de l’intelligence artificielle, en tout cas ceux qu’on nous montre majoritairement, c’est la vision par ordinateur, l’écoute automatique. Évidemment aujourd’hui, quand vous allez à l’aéroport, il y a un système de reconnaissance faciale et, derrière, il y a des réseaux de neurones [3] profonds qui comparent la photo prise à l’aéroport et celle de votre passeport, par exemple ; les portes vont s’ouvrir automatiquement si la similarité calculée par le modèle est suffisante.
Évidemment, vous utilisez des chatbots d’IA générative qui ont été entraînés aussi à partir des masses de données du Web, qui peuvent vous générer du texte, des réponses à des questions formulées en langage naturel, même des images et bientôt des vidéos et du son.

Sylvie Fagnart : Dans les applications d’intelligence artificielle que nous connaissons, comme le célèbre ChatGPT d’OpenAI, on est, en fait, face à des dispositifs de machine learning. ChatGPT nous impressionne en nous délivrant des réponses parfois dignes des meilleurs exposés. Mais on retrouve la même technique, c’est-à-dire l’élaboration d’algorithmes pour entraîner des machines, ou des ordinateurs, à produire une réponse, des suggestions de recherche dans Google ou des robots d’assistance sur le site de la SNCF. Et qui dit élaboration d’algorithmes pour entraîner des machines suppose qu’il y a bien, derrière, des humains pour les imaginer et les écrire. Or, nous sommes toutes et tous, humaines et humains, perclus de stéréotypes, imprégnés des biais de la société, qu’ils soient sexistes ou racistes.
Revenons à la reconnaissance faciale. Des études de sociologie ont démontré que nous sommes tous affectés par l’ORD ou, en anglais, own-race bias, c’est-à-dire que nous éprouvons plus de difficultés à reconnaître le visage d’une personne d’une ethnie différente de la nôtre. Mais la machine ne peut-elle pas, justement, dépasser cette déformation de la réalité dont souffrent les humains ? Eh bien non, parce que la machine n’invente rien.
Les algorithmes entraînent les logiciels de reconnaissance faciale sur des masses de données, des centaines de milliers de visages recueillis sur le Web. Or, ces données comportent elles-mêmes des biais.

Stephan Clémençon : Aujourd’hui, très souvent, les données du Web sont celles qui vont nourrir les systèmes d’IA comme les chatbots d’IA générative que, maintenant, chacun utilise presque tous les jours. Ces données du Web ne sont pas contrôlées, c’est-à-dire que chacun contribue sur les forums, sur les portails, etc., alors qu’auparavant l’information était largement collectée via des questionnaires, des sondages, donc, on essayait de contrôler tout un tas de sources de variabilité ; aujourd’hui, ce n’est plus du tout le cas. Rien ne permet de dire que, par exemple, des données qu’on connecterait via nos téléphones portables, via d’autres sources de capteurs, soient véritablement représentatives. Il y a un biais de représentativité qui peut tout à fait être présent.
Après, par biais, on entend aussi éventuellement l’iniquité, le fait que certains systèmes seraient défavorables à certains segments de population – on en parle beaucoup, par exemple, dans le domaine de la reconnaissance faciale – et les causes peuvent être très nombreuses. Ce n’est pas le système ou le programme qui va vouloir défavoriser certains segments, c’est simplement, peut-être, que ces segments de population sont moins représentés en phase d’apprentissage, c’est-à-dire quand on entraîne l’intelligence artificielle à produire des réponses.

Sylvie Fagnart : Demandez en anglais, langue neutre, à un générateur d’images de vous présenter a nurse. Vous verrez apparaître, sur vos écrans, des images de femmes en tenue d’infirmière. La requête a doctor montre, de son côté, des hommes médecins. Les données informatiques ne sont que le reflet de nos sociétés où la division genrée du travail a toujours cours. Ces données produisent donc des biais de représentation qui vont alimenter encore les stéréotypes. On pourrait avoir l’impression, selon ces IA génératives, que seuls les hommes peuvent être médecins, quand les infirmières sont toutes des femmes.
Reprenons notre exemple de reconnaissance faciale et penchons-nous sur les recherches menées par Joy Buolamwini [4] sur le sujet. Joy Buolamwini est une jeune chercheuse américaine, au prestigieux MIT, qui travaille sur l’intelligence artificielle. En 2011, elle n’a que 22 ans et étudie la robotique au Georgia Institute of Technology à Atlanta. Elle doit mettre au point un petit robot qui interagit avec les humains quand il en aperçoit, mais le petit robot ne détecte pas sa présence. L’outil de reconnaissance faciale qu’elle a utilisé pour sa créature ne parvient pas à considérer son visage comme humain. Joy Buolamwini est afrodescendante et la machine ne parvient pas à analyser son visage. À partir de là, la jeune femme n’aura de cesse de dénoncer les énormes risques qui pèsent sur les personnes non blanches avec l’utilisation des technologies de reconnaissance faciale. « Si personne n’est à l’abri des abus algorithmiques, ceux qui sont déjà marginalisés dans la société portent un fardeau encore plus lourd », dit-elle. Différentes études l’ont, depuis, prouvé : face à un visage noir, les algorithmes de reconnaissance faciale risquent de se tromper entre 10 et 100 fois plus que face à un visage blanc.
Les travaux de Joy Buolamwini et d’autres pointent la partialité des algorithmes ou plutôt de celles et ceux qui les conçoivent. Ceux surtout ! Les métiers de l’informatique restent l’apanage des hommes, dans leur majorité blancs. Quand ils codent ou quand ils supervisent l’entraînement de leurs machines, ils oublient les inégalités raciales qui structurent nos sociétés et les reproduisent. C’est tout l’enjeu de la diversité dans les métiers de la tech. Les chiffres ne bougent qu’à la marge ces dernières années. Sept salariés sur dix de la Silicon Valley sont des hommes et la proportion est la même pour les personnes blanches, elles représentent les trois quarts de l’effectif.
Recruter des profils différents constitue une urgence pour limiter les biais des dispositifs d’intelligence artificielle. L’expérience l’a montré, on ne peut plus se cacher derrière l’idée que l’immensité des données disponibles permettra de résoudre ses problèmes de représentativité, comme l’explique Stephan Clémençon.

Stephan Clémençon : On a l’impression, malheureusement avec l’IA, que la masse des données va résoudre un peu tous ces problèmes, y compris de représentativité, ce qui n’est pas le cas. Ça demande donc de la méthodologie et ça demande aussi de s’investir et d’analyser les données. Ça ne peut se faire qu’à travers une supervision qui peut être, peut-être en partie, automatisée, mais, souvent, elle est coûteuse. Donc, qui met les labels sur les données, qui donne un feedback au système ?

Sylvie Fagnart : La supervision des données, coûteuse comme le rappelle Stephan Clémençon, ne semble d’ailleurs pas à l’ordre du jour des géants de l’IA. En témoignent les réponses plus qu’évasives, délivrées en mars 2024, par la directrice technique d’OpenAI sur l’origine des données utilisées pour entraîner leur nouveau produit générateur de vidéos, Sora. Mira Murati est ici interviewée par la journaliste de The Wall Street Journal, Joanna Stern [5].

Voix off, traductrice de Joanna Stern : Quelles données ont été utilisées pour entraîner Sora ?

Voix off, traductrice de Mira Murati : Nous avons utilisé des données accessibles au public et des données sous licence.

Voix off, traductrice de Joanna Stern : Donc des vidéos sur YouTube ?

Voix off, traductrice de Mira Murati : En fait, je n’en suis pas sûre.

Voix off, traductrice de Joanna Stern : OK. Des vidéos de Facebook, d’Instagram ?

Voix off, traductrice de Mira Murati : Vous savez, si elles étaient accessibles au public, disponibles, oui, disponibles à l’utilisation, elles pourraient être des données, mais je n’en suis pas sûre, je ne suis pas sûre de moi.

Voix off, traductrice de Joanna Stern : Qu’en est-il de Shutterstock [6] ? Je sais que vous avez un accord avec eux.

Voix off, traductrice de Mira Murati : Je ne vais pas entrer dans les détails des données utilisées, mais il s’agissait de données accessibles au public ou sous licence.

Sylvie Fagnart : Que faut-il comprendre des réponses très vagues de Mira Murati ? Soit elle ne sait pas quelles sont les données qui nourrissent les algorithmes que son entreprise produit, et c’est inquiétant, soit elle ne veut pas répondre parce qu’OpenAI s’abreuve à des sources interdites et c’est tout aussi inquiétant.
Derrière l’opacité entretenue par ce géant de l’IA, pour des raisons concurrentielles, on peut aussi déceler le refus d’investir dans la qualité des données.

Stephan Clémençon : Les données qui nourrissent beaucoup l’intelligence artificielle sont les données du Web qui ne sont pas du tout contrôlées et s’assurer de leur qualité demande un investissement considérable.
S’assurer aussi de leur origine, derrière il y a effectivement des questions de propriété et, aujourd’hui, ces questions ne sont pas vraiment traitées. Il faut voir que ça coûte forcément cher. La qualité ça peut être, effectivement, est-ce que ce sont des données authentiques ou est-ce qu’elles n’ont pas été générées, finalement, par des robots ? Il y a beaucoup de données malicieuses sur le Web.
Et puis, il y a aussi cette question de représentativité, savoir si ce qu’on arrive à capter via des réseaux sociaux, via des applications, est représentatif d’une population qui serait, justement, la cible de cette intelligence artificielle.

Sylvie Fagnart : La question de la qualité des données est essentielle. Les professionnels de l’informatique la résument en un acronyme, « GIGO », pour garbage in, garbage out, qu’on traduit parfois par « foutaises en entrée, foutaises en sortie ».

Stephan Clémençon : On nous parle souvent de publicités personnalisées, de recommandations personnalisées. On est souvent un peu déçu parce qu’on nous recommande le film qu’on a déjà vu ou, si on vient d’acheter une perceuse électrique, on nous en recommande une, pendant les trois prochains jours, sur les bannières publicitaires des sites qu’on visite. On voit bien que ce n’est pas forcément très personnalisé, parce que l’information d’entrée est assez fruste, ce sont, en fait, des logs, etc. Donc tout dépend, encore, de la qualité de l’information qui sera disponible par le système. Le système est un système fréquentiste, il ne fait qu’analyser les régularités statistiques dans les données qui lui sont montrées, donc, si cette information est pauvre, le résultat le sera aussi. La complexité du calcul n’y fera rien. Ces systèmes n’inventent pas de l’information. Ils peuvent créer de nouvelles données, mais ils n’inventent pas d’informations.

Sylvie Fagnart : Existe-t-il, quand même, des solutions pour améliorer la qualité des données ? Peut-on nettoyer ces masses de données pour mitiger les biais, autrement dit pour les diminuer le plus possible ? Pour Stephan Clémençon, nettoyer les données, c’est possible, mais cela entraîne d’autres problématiques.

Stephan Clémençon : On peut les nettoyer, mais on peut difficilement nettoyer les données du Web, en tout cas, il faut circonscrire le périmètre des données qui vont être utilisées. Aujourd’hui, malheureusement dans la pratique, c’est plus il y a de données mieux c’est. L’idée de redresser un échantillon statistique n’est pas nouvelle. Le machine learning, le terme français c’est l’apprentissage statistique ou l’apprentissage automatique, repose sur l’idée que les données dont on dispose vont nous permettre de prédire, de représenter ce qui va se passer dans le futur. Il faut donc que les données d’entraînement ressemblent aux données de la phase prédictive, ce qui n’est pas forcément toujours le cas. Il y a des solutions, mais, pour savoir comment pondérer, comment corriger, justement, ces biais de représentativité dans les données, il faut avoir une information sur la population cible. Ça peut se corriger, mais c’est au prix d’une information auxiliaire dont on doit disposer. Donc, encore une fois, il faut payer pour l’information.
Après, la nature des données peut changer. Vous entraînez avec des images en format RGB et pourtant, ça va peut-être être le cas aux Jeux olympiques, la surveillance va demander de l’infrarouge parce que ce sera la nuit, etc. Donc, comment arriver à transformer quelque chose qui fonctionne avec un format de données en un autre format de données ? C’est l’apprentissage par transfert [7], il y a aussi des solutions pour le faire, mais il faut quand même un certain nombre de données étiquetées, de labels sur les données, il faut donc de la supervision.
Ce qui fonctionne en machine learning, c’est essentiellement l’apprentissage supervisé [8] : des situations où, à la fois, on a la question, mais on peut montrer la réponse à la machine.

Sylvie Fagnart : De la supervision, des données secondaires contrôlées. En résumé, sortir nos machines de nos propres biais et stéréotypes demande des moyens humains et financiers, en particulier pour les grandes IA généralistes qui doivent se nourrir d’une masse immense de données.
De la traçabilité, de la qualité, c’est ce que nous devons exiger, aujourd’hui, des géants de l’IA.

Voix off : Et voilà ! C’est fini. Vous en voulez encore ? La suite au prochain épisode de Esprit, es-tu là ?, le podcast qui invoque votre esprit critique, par Vous ! par Macif et Chut ! Magazine.