Quelques repères sur l’intelligence artificielle Culture numérique

On va présenter un petit peu d’histoire de l’intelligence artificielle. C’est toujours intéressant, surtout pour des gens qui sont en humanités numériques, de regarder comment les choses en arrivent là où elles en sont aujourd’hui.

2012 – Reconnaissance d’objets

Il y a un point nodal, un moment de bascule un peu important, qui s’est déroulé en 2012. Jusqu’à ce moment, les chercheurs en reconnaissance d’images — une sous-fraction de l’intelligence artificielle, qui consiste, quand on vous présente une image, à savoir quel est l’objet qui est présent dans l’image, à mettre un mot, un nom, sur l’objet ou les objets présents dans l’image —, pour travailler à cela, avaient constitué, pour l’époque, une immense banque d’images de 15 millions d’images étiquetées, où la réponse était connue et chaque équipe de recherche en intelligence artificielle faisait des taux d’essais et d’erreurs pour leurs logiciels de reconnaissance. Globalement, en 2012, les systèmes existants marchaient avec 27/30 % de taux d’erreur, ce n’est quand même pas mal !

Arrive la conférence de référence de la vision par ordinateur. Tous les cadors du milieu étaient dans la salle et, à un moment donné, arrive un jeune homme, tout jeune, à peine adolescent, qui présente un projet complètement atypique, qui consiste à reconnaître les images à partir d’un réseau de neurones et non pas à partir d’un thésaurus avec des mots et des relations sémantiques. Juste faire tourner des machines à fond les gamelles pour faire de l’apprentissage et il dit « mon résultat, c’est 17 % ». Il met d’un seul coup 10 % dans la vue. Pourquoi ? Parce qu’il avait une énorme machine, que son équipe avait fait tourner un algorithme pendant très longtemps pour entraîner la machine.

C’est donc un moment de bascule où on voit revenir en tête l’IA dite connexionniste, celle par les réseaux de neurones, qui avait été auparavant mise carrément de côté par l’IA symbolique, celle des symboles.

Courte histoire de l’IA

Je vais essayer de vous expliquer un peu cette courte histoire de l’IA, qui, depuis le début, a été divisée en deux groupes que l’on repère sur ce graphe-là. Il s’agit d’un graphe des citations des articles scientifiques [1] : vous publiez un article scientifique, vous citez les gens qui vous ont inspiré ou qui ont fait une partie de l’expérience, etc. Dans ce graphe, on voit clairement deux groupes complètement séparés : les symboliques se citent entre eux et les connexionnistes se citent entre eux. Ce sont deux groupes réellement séparés, ce que montre bien cette analyse de graphe des citations.

Le terme « intelligence artificielle » a été forgé en 1956 par John McCarthy [2], un personnage important qu’on va revoir tout à l’heure. L’idée, c’est d’avoir une méthode qui manipule des objets sémantiques, c’est-à-dire, quelque part, que la machine comprendrait le sens d’un objet qui lui est présenté. La conception, derrière, est basée sur l’idée que « penser, c’est structurer le monde en concepts ». Faire émerger des concepts, c’est ce que veut dire penser. On a donc des concepts qui s’interpénètrent, qui s’opposent, etc.

Avant que cette approche soit dominante, on utilisait ce qu’on appelle le modèle cybernétique, c’est-à-dire l’idée que penser c’est être capable d’apprendre par essais et par erreurs. Les machines, les boîtes noires cybernétiques, avaient une entrée, une sortie, et si elles faisaient une erreur, hop !, ça bouclait et ça améliorait [la boîte noire pour s’approcher par essai et erreurs de la bonne réponse, Note de l’intervenant]. Il s’agit du modèle dit homéostatique, qui essaye de retrouver un équilibre. Bien sûr, il ne s’agit pas d’une seule machine qui serait une boîte noire, ce sont des milliers de machines qui échangent de l’information. Donc le monde est un monde d’échange d’informations et, quand quelque chose ne va pas, une boucle de rétroaction va faire changer ça.
C’est ce qui a été fait avec un des premiers systèmes « intelligents », avec tous les guillemets nécessaires, le suivi de balistique, la création d’un radar de DCA qui serait capable de prédire le chemin d’un obus, d’un missile, pour pouvoir le faire exploser en vol, ou prédire le parcours d’un avion pour être capable de lancer une fusée de DCA dedans. C’est une des grandes études qui a été menée pendant la Seconde Guerre mondiale et qui, justement, utilise ce qu’on appelle une heuristique. Imaginez que l’on joue au ballon. Vous me lancez un ballon. Pensez-vous que mon cerveau va se mettre à bouillonner pour savoir quelle est la parabole qui va être suivie en fonction de l’angle de départ, de la force avec laquelle ça a été lancé… ? Non, je vois le ballon arriver, je me dis il va arriver là… Donc, je fais une heuristique sur le point d’arrivée, qui s’adapte, au fur et à mesure, à la situation.
Là, on a bien les deux modèles : le modèle calculatoire et le modèle probabiliste. Parce que si on n’est pas très doué — personnellement, je ne suis pas très doué avec les ballons —, on rate le ballon. On voit qu’il y a plusieurs modes de raisonnement et qu’il n’y a pas que le mode conceptuel, symbolique.

Neurones

En 1943, McCulloch et Pitts, deux psychologues, inventent l’idée de neurone artificiel. Un neurone artificiel, c’est quelque chose qui va recevoir des entrées et calculer une sortie.
On a dans l’exemple présenté un modèle très simple : le neurone d’entrée, celui de la colonne de gauche, est « allumé », ou pas, on lui donne de l’énergie. Par exemple si c’est noir ça lui donne la valeur 1 et si c’est blanc ça lui donne la valeur 0. On a une influence faite par le neurone B sur la sortie, une influence faite par le neurone A sur la sortie, cette influence est ce qu’on appelle un poids, c’est un nombre décimal, parfois très petit [0,0]. Le lien entre deux neurones est pondéré. Et si on change les valeurs de ces poids, alors on va changer les sorties.
Quand on a deux neurones en entrée et un neurone de sortie, c’est facile, ça peut faire les valeurs « et » et « ou » de la logique booléenne. Les machines modernes de réseaux de neurones ont des milliers de neurones, donc des millions de poids à modifier en permanence. Les poids vont être modifiés en fonction du résultat. S’il y a erreur dans le résultat, le poids est modifié par une boucle de rétroaction, le fameux feed-back [à la base de la cybernétique, Note de l’intervenant].

Le Perceptron

Dès le début, ce modèle a été pensé pour la reconnaissance de formes, c’est-à-dire la perception. D’ailleurs, le premier réseau de neurones s’appelle le Perceptron [3]. Il s’agissait d’une machine physique qui avait 400 cellules photovoltaïques, des potentiomètres pour déterminer les poids entre les divers neurones. C’est un modèle qui ressemble beaucoup au modèle de Friedrich von Hayek [4]. Friedrich von Hayek est connu comme étant l’inventeur du néolibéralisme, mais c’est aussi quelqu’un qui pratiquait la psychologie sociale, notamment en étudiant comme modèle la salle de marché. Une salle de marché est un lieu de négociations permanent qui va permettre, à partir de plusieurs entrées, plusieurs entreprises qui proposent un produit, de trouver le meilleur prix à la sortie.
On est sur un modèle informatique qui est influencé aussi par des modèles économiques, des modèles psychologiques généraux. [Ce que développe Pablo Jensen dans son livre Deep earnings, Note de l’intervenant].

Emballement médiatique

Le perceptron a été mis en œuvre avec un financement de la marine américaine, la Navy. Dès ce moment-là les journaux commencent à parler d’electronic brain, un cerveau électronique qui apprend lui-même, qui va donc modifier ses systèmes internes, un outil qui apprend en faisant les choses. Typiquement, dès le début, on a cherché à humaniser ces machines. On utilise ainsi le terme d’apprentissage [plus tard d’intelligence, Note de l’intevenant]. Vous avez remarqué que j’utilise le terme d’« entraînement » qui me paraît bien plus adéquat que de dire apprentissage.

Le courant symbolique

Frank Rosenblatt [5] va mourir jeune, il ne pourra pas continuer son travail et les tenants de l’IA symbolique, ceux qui pensent par concepts, qui imaginent que les machines ont besoin d’avoir des concepts pour pouvoir agir, vont remporter la partie à partir du début des années 1960. Ils forment une équipe qui a beaucoup d’influence. Là aussi on s’aperçoit, quand on fait un peu de sociologie des sciences, que les idées c’est une chose, mais les personnes, leurs positions, leurs relations sont quelque chose de très important. Par exemple, des gens comme McCarthy, celui qui, outre avoir créé le mot intelligence artificielle, est aussi celui qui a inventé l’informatique en temps partagé, le fait de pouvoir avoir une machine utilisée pendant quelques millisecondes par une personne, pendant quelques autres millisecondes par une suivante, ce qui rendait donc les ordinateurs, même centraux, disponibles à plein de terminaux en même temps, en simultané.
Les membres du groupe de l’IA symbolique étaient donc des gens importants. Ils s’opposent au modèle connexionniste, ils ne veulent pas de cette idée de l’adaptation, et ils vont capter la majeure partie des crédits. C’est donc ce groupe qui va se développer à partir des années 1960.

Penser avec des symboles

Penser c’est réagir au monde, mais c’est aussi posséder des symboles, être capable de construire, à l’intérieur de son cerveau, des symboles.
Là aussi on voit bien, j’y reviendrai dans ma conclusion, que derrière l’intelligence artificielle il y a tout un débat sur : qu’est-ce que penser pour un humain ? C’est quoi l’intelligence humaine ? Quel est notre modèle de pensée ? Les uns l’appellent neurones, ce n’est pas pour rien, les autres parlent de symboles, ce n’est pas pour rien non plus. En fait, on ne sait pas trop comment on pense, pourquoi on pense, donc on a des idées sur notre pensée et on les applique à des modèles mécaniques en se disant « une fois que je saurais faire un modèle mécanique qui s’approche de mon idée, ça voudra dire que mon idée correspond bien à la nature de la pensée. »

Je vous affiche ici une photo de McCarthy qui va créer le langage LISP pour l’intelligence artificielle.
Le premier calculateur, l’ENIAC, était câblé. On a des tas de photos où on voit des femmes — c’était alors un métier de femmes — qui allaient câbler pour faire les calculs. Dès 1946, on a séparé le matériel du logiciel. On pouvait donc créer des langages logiciels et, qui dit langages logiciels, dit se rapprocher de l’intelligence humaine. Le terme langage n’est pas du tout innocent alors qu’en fait il s’agit d’un code.

Ingénierie des connaissances

Dans les années 1980, cette intelligence symbolique va créer tout un secteur qu’on appelle l’ingénierie des connaissances. On va essayer de créer des graphes sémantiques, un peu comme celui-ci, qui vont relier les divers éléments qu’on connaît du langage avec des règles simples – si/alors. En empilant toute une série de règles simples qu’on a demandé à un expert de verbaliser, on cherche à créer de l’expertise. Souvent l’expert ne sait pas pourquoi il est expert, il sait des choses, mais il ne sait pas forcément les expliciter. On a donc vu se développer tout un travail dit d’ingénierie des connaissances : prendre des experts, les mettre dans une pièce et leur dire : « Tu dis ça, pourquoi dis-tu ça ? quelle est la raison qui fait que dans ton métier de géologue, de médecin, dans le métier qui est le tien, tu peux affirmer cela ? » Un système expert se crée ainsi en ayant beaucoup d’expertise accumulée.
On a vu se développer beaucoup de systèmes experts : MYCIN pour le diagnostic médical des maladies du sang, PROSPECTOR qui permet d’étudier des cartes géologiques pour la recherche de minerais. Quand l’expert dit : « Vu la faille, vu ceci, il risque d’y avoir des minerais intéressants ». [On cherche à réaliser le même travail automatiquement, donc plus rapidement et sur une plus grande masse de données, Note de l’intervenant].
On raconte d’ailleurs que tout l’argent investi dans l’ingénierie des connaissances a été remboursé par le fait qu’un système expert a permis de découvrir un gisement à un endroit qui n’était pas prévu, et que cela a remboursé tous les investissements.

Réseaux sémantiques

Pour arriver à faire des inférences, c’est-à-dire à faire des raisonnements sur des concepts ou sur des si/alors mis en place par un expert, pour avoir un moteur d’inférences, il est utile d’avoir des réseaux sémantiques.
On va s’engager, à partir de ce moment-là, à essayer de prendre tous les mots du langage et à essayer de créer le réseau sémantique dans lequel est chaque mot du langage. Pour la pomme, il y a une partie qui renvoie au monde des fruits, une partie qui est quelle est son origine, quelle est sa structure, le pépin. On va donc mettre en lien tous les mots. Là, on n’a que la partie concrète, après il y a la pomme d’Adam, il y a Adam et Ève. On va essayer de créer un langage sur le langage.
Cela est un processus qui est voué à l’échec. Le langage est auto-explicatif. Vouloir créer une autre auto-explication du langage qui serait inscrite dans une mémoire d’ordinateur, quand on regarde, c’est vrai que c’est un peu voué à l’échec. Après, on peut quand même avoir des tas de choses intéressantes, des règles intéressantes qui vont pouvoir servir… mais bon !

Retour connexionniste

Donc, ça va amener le retour du connexionniste, fin des années 1980. Comment s’y prend-on ? Eh bien, on invente un algorithme.
Françoise Fogelman-Soulié, une Française, met au point un algorithme dit de rétropropagation du gradient [6], c’est-à-dire comment on change les poids de liaison entre deux neurones, ces fameux poids dont je vous parlais tout à l’heure, à partir d’une évaluation de la sortie : si la sortie est bonne, on renforce les poids, si elle est mauvaise, on diminue les poids. On a donc un phénomène comme ça où on va réinscrire les poids en permanence.
Si c’est un réseau totalement interconnecté, on ne peut pas penser qu’on aura un jour une machine assez puissante pour refaire tous les poids, donc on va faire des réseaux en couches. On a plusieurs couches et ça diminue le nombre de liens puisque les liens sont uniquement entre deux couches. Ils sont nombreux, n’oublions pas, on a donc besoin d’une puissance de calcul énorme, mais on les réduit, c’est-à-dire qu’on n’est pas, ce qu’on appelle informatique, en O(n2) ou NP-Complet, c’est-à-dire une complexité qui est à priori inatteignable.

Entraînement

Comme je disais tout à l’heure, je préfère dire entraînement qu’apprentissage, parce que l’apprentissage ça apprend quelque chose ; quand j’ai appris, je conceptualise aussi, je vais donc pouvoir déplacer ce que j’ai appris d’un domaine sur un autre domaine. Quand je m’entraîne je sais répéter, parfois très bien, l’ordinateur le fait certainement mieux que moi.

L’image à l’écran est un dataset d’images qui vient de Tencent, l’entreprise chinoise Tencent. La question qui se pose, c’est quel est le lot de données d’entraînement et quels sont les biais qui sont à l’intérieur du lot de données. Si vous voulez reconnaître des visages en prenant uniquement des ingénieurs autour de vous, ils seront tous blancs, vous avez peu de chance de bien reconnaître les visages des personnes d’origine africaine.
La conception du lot de données est donc importante et elle induit des biais, mais un autre élément est ce qu’on cherche. Tout chercheur, quel qu’il soit, a des idées dans sa tête, à lui, et il va les chercher, il va essayer de les retrouver. On a donc une projection du soi dans la machine d’inférences, dans le type de calcul qui est fait, dans le type d’entraînement qui est fait, parce que, bien sûr, il n’y a pas UN modèle d’entraînement, c’est souvent une cuisine : on fixe des poids à l’origine, on les change, l’algorithme les change un peu plus, un peu moins, en fonction de ci, en fonction de ça, c’est toute une cuisine. J’aime bien le terme « cuisine » parce que, d’abord, j’aime beaucoup cuisiner et puis parce que ça ne s’écrit pas, donc derrière, ça ne s’explique pas forcément. Pourquoi deux personnes qui font le même plat à partir de la même recette et, à la fin, ça peut être très bon ou très mauvais, alors que c’est parti avec la même recette ? Parce que, tout simplement, il y a quelque chose qui ne s’explique pas.
C’est un deuxième problème de l’IA connexionniste : elle n’est pas capable d’expliquer pourquoi elle fait des choses.

Du texte au vecteur

Une des règles, c’est qu’on passe du texte au vecteur.

On dit, dans la presse, que ChatGPT choisit le mot qui suit. Non, il choisit le token qui suit. En fait, il découpe la phrase, la question qu’on peut lui avoir posée, en token. Token c’est un ensemble de deux/trois/quatre, en général trois/quatre lettres y compris les espaces, souvent les tokens commencent par l’espace. Ça va permettre de faire les déclinaisons, les déclinaisons de genre, les déclinaisons de nombre pour les verbes, toutes ces choses-là, justement parce qu’on ne va pas être assujetti à des mots complets, on va faire de la probabilité sur des n-gram, c’est-à-dire des ensembles de n lettres, n étant en général trois/quatre. Ça va être traduit dans un vecteur, c’est-à-dire un ensemble de coordonnées ; un vecteur c’est un ensemble de coordonnées. La machine va faire des comparaisons de vecteurs et elle peut le faire quand même beaucoup plus vite. Une fois qu’elle a transformé les choses en vecteurs, elle va très vite pour comparer des vecteurs. Donc, par exemple, quand elle a un début de phrase, le vecteur de début de phrase peut être comparé à toute une série de complétions de phrases jusqu’à trouver la complétion qui va être la plus probable. On est dans un modèle probabiliste.

Les applications

Traduction automatique

La première, peut-être la plus fabuleuse, c’est la traduction automatique. Là on a un exemple de lot d’entraînement : dans tous les documents du Parlement européen, chaque article est traduit en de multiples langues. C’est un langage très simple, codé, si bien que c’est un lot d’apprentissage absolument énorme qui permet de calculer des vecteurs dans une langue, des vecteurs dans une autre, de les comparer et de les associer sur un mode associatif. Vous vous servez toujours de la traduction automatique, je suis sûr !

Moi qui suis éditeur, j’ai, par contre, des mauvaises nouvelles : les traducteurs, un peu comme tous les travailleurs du clic tout à l’heure, commencent par balancer leur texte sur un traducteur automatique et ils disent « après je vais corriger ». Traduire ce n’est pas ça ! Traduire dépend de la langue cible, la langue vers laquelle on traduit, pour nous le français, et on va essayer de comprendre ce que veut dire l’auteur pour mettre des mots français qui disent la même chose. Ce n’est pas tout à fait le même raisonnement que de dire « on va associer un vecteur ». C’est très difficile de modifier, après, quelque chose qui a déjà été fait.
Vous êtes en humanités numériques, j’imagine que vous allez faire de la traduction automatique, ça me semble dans vos perspectives, c’est très difficile de changer un texte qu’on a sous les yeux, même s’il n’est pas clair, parce qu’on finit par le comprendre. Même, parfois pire, quand on connaît la langue source, on la lit derrière et on comprend parce qu’on lit le fait que c’est une traduction.

Il y a là une vraie question de société : on vous dit qu’un métier comme le traducteur va disparaître parce que les machines vont le remplacer et, en même temps, quand vous regardez vraiment, vous vous apercevez que ce n’est pas si simple ! Autant, je me sers tout le temps de la traduction automatique pour être sûr de comprendre, de ne pas faire de contresens, autant je vois bien que quand on fait de la traduction c’est un vrai métier qui porte en lui-même un sens. D’ailleurs, le traducteur est un auteur du point de vue juridique.

Médecine

Il y a vraiment des applications absolument fabuleuses, surtout en reconnaissance des images médicales. Là c’est un exemple du MIT. Il y a quatre ans entre les deux photos. On voit le cancer apparaître là, donc un œil humain pourrait le reconnaître et le traiter, mais, en fait, la machine l’a retrouvé dans les photos anciennes ici, elle l’avait déjà repéré alors que le médecin humain est passé à côté. Logique !
En médecine, on a vraiment des applications absolument enthousiasmantes de ce point de vue-là : pour l’aide au diagnostic, pour les analyses biologiques, etc.
Par contre, je ne vous conseille pas de demander à ChatGPT quel va être le médicament que vous devez prendre en lui décrivant vos symptômes !

IA generative

Arrivent les IA génératives, notamment génération d’images, de sons ou de vidéos.
Elles ont été entraînées sur des corpus énormes et elles répondent, en fait elles prédisent, à partir d’une suite de mots, d’un ensemble de mots, quelle va être la suite la plus probable à lui donner. Ça permet d’écrire tous les textes de ChatGPT ; je n’ai pas mis d’exemple parce que je sais que vous l’avez fait par vous-même, que c’est souvent drôle quand on lui pose la question qu’il ne faut pas.

Là, ce sont des exemples faits par Olivier Ertzscheid [7], un des auteurs de C & F Éditions, qui a travaillé en l’occurrence sur Midjourney [8], un générateur d’images, en lui posant des extraits de textes d’auteurs classiques. En l’occurrence, c’est la fameuse phrase de Lautréamont : « Beau comme une rencontre fortuite sur une table à dissection d’une machine à coudre et d’un parapluie ». Comme « dissection » est un mot interdit dans Midjourney — l’entreprise a interdit des mots pour éviter de créer des images qui soient vulgaires ou qui puissent entraîner des attaques contre Midjourney ensuite — il a donc remplacé par « table mortuaire ». C’est beau ! Dans un de ses articles de blog, il y a toute une série d’images générées comme cela.

Y croire ?

Est-ce qu’il faut y croire ?
La limite de la panique morale est là. Est-ce que cette génération d’images ne va pas nous amener des fake news. Vous savez que le festival Burning Man a été victime, cette année, d’une inondation et David Satori, un photographe, a fait toute une série d’images en disant que c’était quand même la cata à Burning Man. Bien sûr, ce sont des images fabriquées, on le voit bien, mais on peut y croire aussi.

En fait, on va se retrouver avec des tas d’images qui vont renchérir sur le zeitgeist, l’esprit du temps, les choses qui se disent. Tout le monde était content, en fait, que ces riches, qui allaient à Burning Man, prennent une claque, de pluie. Les plus anciens Burners, les gens qui vont à Burning Man, ont dit au contraire « voilà une vraie expérience vécue, comme celle que nous espérons avoir, quand on vient dans une cuvette au milieu du désert. »

Texte/Image

J’aime bien cette petite vidéo, une présentation de chatGPT.

C’est beau comme une promo. C’est un couplage texte/image. C’est ce qui vient d’être fait par ChatGPT entre un générateur d’images comme DALL-E [9] et ChatGPT. À partir des questions, des prompts, on appelle ça des prompts, pouvoir générer des images – c’est adorable, n’est-ce pas, des petits hérissons comme ça –, pour raconter une histoire le soir, etc. Là aussi, il y a un côté fabuleux et, en même temps, un côté déjà-vu. J’ai eu cette impression, pour ce type d’images, qu’on est dans l’ordre du déjà-vu, mais c’est quand même assez extraordinaire.

Vidéos

Maintenant, il y a des générateurs de vidéos. On peut générer des vidéos.

En Chine, pour 1000 dollars, vous pouvez vous payer un clone qui va faire du travail d’influenceur, pour vous, sur TikTok, qui va pouvoir faire en sorte que vous alliez influencer sur TikTok toute la nuit. En fait, en une heure, je crois que cette influenceuse a remboursé les 1000 dollars qu’elle avait dépensés puisqu’elle est payée au pourcentage des ventes.
Par rapport à ça, on voit encore des hésitations, des réticences, mais on peut penser que ça ne va pas durer.

Qu’est-ce qu’on fait pour savoir si on a affaire à une véritable image, à une véritable vidéo ou alors à un truc fabriqué par une IA ?
Des gens disent « on va faire des systèmes qui vont repérer si c’est une IA » ; dans 30 % des tests, ils se plantent, de toute façon, ils n’y arrivent pas. Si on n’y arrive pas par la technique, on y arrivera peut-être par la politique, c’est-à-dire obliger les gens qui utilisent des images fabriquées avec un générateur d’images de le mettre, de l’indiquer.

Ho là, on se calme !

L’image, c’était bien censé être la preuve : on a toujours des « preuves par l’image », n’est-ce pas ? Quand même, un match de foot de l’équipe de France.

[Projection d’une vidéo d’un match de foo. La vidéo montre les joueurs bien connus de l’équipe de France masculine, puis démontre qu’il s’agit en réalité de séquences de matchs de l’équipe féminine dont les visages ont été remplacés par une IA, Note de l’intervenant].

Je l’arrête.
La rapidité d’un match de foot ! Ça va très vite et on voit qu’on peut truquer l’image du match de foot, pas en direct, il nous reste encore la chance du direct ! C’est d’ailleurs la magie du foot : unité de lieu, unité de temps, unité d’action, ça reste tragique ! Là, on s’aperçoit que la preuve par l’image va devenir de plus en plus compliquée à gérer. Encore une fois, il faudra imposer et c’est le rôle du politique. C’est un peu en projet dans la directive sur l’IA qui est en préparation au niveau de l’Union européenne, ça devrait arriver.

[Projection d’une vidéo de robots qui dansent]

Le problème, c’est que ces robots-là sont des robots de guerre. C’est sympa de les faire danser, ça plaît à tout le monde, mais ce sont des robots qui ont été fabriqués pour être des soldats sur le champ de bataille.

On a là un peu une série d’exemples que je voulais vous montrer. C’est quand même fascinant et inquiétant. Est-ce que ça mérite une panique morale ? On va voir, maintenant, les autres applications.

Moteurs de recherche

Dans les moteurs de recherche.
Jusqu’à présent, un moteur de recherche nous donnait une liste de documents et c’était à nous d’aller regarder dans le document pour trouver la réponse à notre question.

Si on rajoute une IA – ChatGPT pour Microsoft, Bard pour Google, chacun a sa propre IA qui a été entraînée sur son lot de données, il est certain que l’entraînement de celui Google ne doit être pas mal, ils ont de la donnée –, à ce moment-là, on va avoir un moteur de réponses et non plus un moteur de documents, quelque chose qui va essayer de nous trouver directement la réponse, quelque part, aussi, la choisir pour nous, c’est là qu’est peut-être le piège. C’est présenté comme un moyen de nous faciliter la vie, parce qu’on va faire confiance. C’est ce qu’on appelle les médias de synthèse.

Médias de synthèse

À partir du moment où on va créer un média, par exemple Google ici, je vais poser la question : comment changer un pneu de vélo et j’ai la réponse, il y a encore le lien vers le blog Cyclofix qui fait ça, mais, à priori, il me donne directement la réponse.
De même, quand vous interrogez sur une personne, il y a tout de suite une page d’informations sur la personne, sur le côté, qui vient de Wikipédia, en fait, elle ne vient pas directement de Wikipédia, mais du système qui s’appelle Wikidata à l’intérieur de Wikipédia, qui est donc une manière de mettre des données structurées – date de naissance, etc. – pas seulement du texte, comme Wikipédia, mais des données structurées. Avec ces données structurées, c’est plus facile pour un média informatique, comme Google, de fabriquer directement des réponses.
C’est aussi faire des résumés. Avant, il repérait des articles, des documents, des pages web, maintenant, il va repérer, dans la page, la fraction de page qui correspond à notre demande et, éventuellement, même en faire un résumé comme sur cet exemple.

Autre exemple : lui, c’est un présentateur sportif chinois très connu sur Taobao et sur d’autres médias sociaux. Il a fait un clone, comme tout à l’heure, qui est capable de présenter les résultats sportifs à sa place, parce que les résultats sportifs, c’est très structuré : qui a gagné, qui a marqué, qui a fait ceci, qui a fait cela. Il suffit donc juste d’avoir un générateur de texte et un générateur d’images vidéos, comme on l’a vu tout à l’heure, et ce présentateur donne les résultats en permanence et toute la nuit. C’est rentable !

Hallucinations

En IA, on parle d’hallucinations. Ça n’a rien à voir avec les hallucinations psychédéliques, malgré des images, ça a à voir avec le « j’hallucine ! », cette nouvelle phrase, un nouveau mot qui est rentré dans Le Robert cette année, « j’hallucine », que vous utilisiez tous et toutes, parce que, bien sûr, une fois que c’est rentré dans Le Robert, on s’en sert moins !
L’hallucination des IA, c’est l’idée que le système va nous donner une réponse même s’il ne la connaît pas : il va inventer. Il est là pour produire du texte, il est génératif, il n’est pas là pour vérifier ce qu’il dit. Il va produire du texte et le produire de manière crédible.
Il ne cite pas ses sources, il ne nous dit pas où il a lu ce qu’il raconte, il ne nous dit pas d’où ça vient, donc il va inventer. Et ça a des effets dangereux. Il y a eu un exemple avec lequel il a poussé quelqu’un au suicide justement parce qu’il demandait ce qu’il fallait faire pour sa santé ; heureusement, la personne a été assez sage pour ne pas écouter l’intelligence artificielle, mais voilà !

On a donc des hallucinations et, en même temps, des chercheurs comme cet ingénieur de Google qui dit : « Mais non, mon IA est « sentiente », elle sent les choses ». Non, une IA ce n’est pas incarné, ça reste un système de génération de textes, d’images, de vidéos, fascinant comme on vient de le voir, mais ça reste ça et c’est important de le savoir, c’est ça qui va nous protéger d’une panique morale : savoir comment ça fonctionne, savoir aussi ce que les gens se font comme argent avec ça.

Ingénierie du prompt

On nous dit aussi qu’on va avoir un nouveau métier qui serait l’ingénierie du prompt. C’est un peu difficile d’appeler ingénierie un système qui ne sait pas expliquer ce qu’il fait. À priori, c’est le contraire exact du métier d’ingénieur, mais bon !
L’exemple présenté est assez significatif. On pose à ChatGPT la question : quand est-ce que la France a offert une tour de télé à Vilnius, en Lituanie ? Il va répondre, il va inventer ; la France n’a jamais offert que quoi que ce soit ! Mais, selon la manière dont vous allez poser la question, vous allez obtenir un résultat qui est cohérent linguistiquement, absolument pas avec le monde réel.

On voit bien comment on peut se servir de ça pour fabriquer des fausses nouvelles, des nouvelles fabriquées, fake news, ce sont des nouvelles fabriquées.

Puissance de calcul

Pour arriver à ça, pour arriver à entraîner des IA. il faut une puissance de calcul fabuleuse.

On en a déjà un premier exemple, c’est Nvidia qui vient de rentrer en bourse. Nvidia, c’est l’entreprise qui fabrique les chips graphiques, ceux qui vont très vite, qui sont faits pour les cartes de jeu, les choses comme ça, et qui sont utilisés par les gens qui font de l’entraînement sur les intelligences artificielles. C’est un vieux principe : pendant la ruée vers l’or, les seuls qui ont vraiment gagné de l’argent, ce sont les marchands de pioches et de pelles.

Ça veut dire aussi que pour entraîner une IA il faut beaucoup de puissance de calcul. Qui a la puissance de calcul ? Google, Microsoft, Amazon, Facebook, tous les gens qui ont du cloud, qui ont travaillé le cloud dans les années précédentes. Vous remarquez qu’il n’y a pas de cloud européen, donc il n’y aura pas d’IA européenne. C’est un vrai problème de ce qu’on appelle la souveraineté numérique.
Les universitaires n’ont pas les moyens ! Pour entraîner une IA, il faut acheter du temps de calcul sur ces grands clouds et, vu la puissance de calcul nécessaire, ce n’est pas en université qu’on y arrivera.

Sidération

On peut être sidéré. Il est vrai qu’on est dans un état de sidération.
Est-ce que, pour autant, dans cet état de sidération, il faut sombrer dans une panique morale ? Je ne le pense pas, mais il faut être capable de réfléchir à ce que vont devenir le travail, l’éducation, les nouvelles, les informations, etc.

Travail

Le premier à considérer aujourd’hui, c’est la question du remplacement du travail par les IA.

Problème : en fait, on a développé toute une partie du travail que l’anthropologue David Graeber appelle les bullshit jobs, je ne traduis pas !
Ce sont aussi les travailleurs qui ont été en première ligne pendant le confinement, tout ceux-là ce sont les jobs les moins bien payés.
On s’aperçoit qu’à un moment donné il y a une perte de sens du travail : ce n’est pas pareil de produire quelque chose et de ne servir à rien, d’être juste là pour faire tourner la machine. Il y a à la fois une valorisation du travail des services, qui n’est pas près d’être remplacé par une IA, et une dévalorisation de toute une série de travaux d’accompagnement de la production et ce sont ceux-là qui sont les plus menacés par les IA, donc la panique morale vient. Il y a bien des gens qui ont un intérêt à dire « c’est mon métier, souvent bien payé, très qualifié, mais inutile, qui risque d’être remplacé par des IA », et pas les métiers de services utiles qui peuvent être accompagnés par des IA, comme on l’a vu tout à l’heure par exemple en médecine, mais pas remplacés.

J’aime beaucoup cette phrase d’Aristote : « Quand les navettes marcheront toutes seules, viendra enfin l’âge d’or ». Il n’avait pas prévu que ça serait l’âge du chômage ! Sacré Aristote !
Quant à Keynes, dans les années 1930, il disait : « Oh la, la, les progrès techniques servent à réduire le temps de travail. À la fin du vingtième siècle, 15 heures par semaine ! »

Grève des scénaristes

Un truc intéressant concerne la grève des scénaristes de Hollywood qui s’est terminée cette semaine. Première grève contre les IA ! Qu’est-ce qu’ils ont obtenu ? Ça montre bien quelque chose : ils ont obtenu qu’il n’y aurait pas d’IA pour écrire les scénarios, mais aussi, c’est important, qu’un patron ne pourra pas utiliser une IA pour faire le script général d’une série ou d’un truc de production et, ensuite, demander aux scénaristes de faire les vrais dialogues, d’avoir le touch feeling humain. Parce que, dans ce cas-là, ça serait le studio lui-même, qui a interrogé l’IA, qui aurait les droits d’auteur et non plus les scénaristes.
Le dernier point qu’ils ont obtenu, c’est que leur production, leur scénario ne pourra pas servir à entraîner d’autres IA. Une revendication pensée pour l’avenir.
C’est quand même un élément assez important qui a été obtenu ici et on voit bien, encore une fois, que ce n’est pas être en panique morale, c’est juste de fixer des règles de régulation.

Éducation

En éducation, la première chose à laquelle on a pensé c’est : les étudiants, on les connaît, ils vont faire faire tout leur boulot par ChatGPT et puis ils vont nous rendre des devoirs impeccables, on ne pourra pas les noter ! Catastrophe !

Apprendre ce n’est pas ça, ce n’est pas l’évaluation. Par contre, ça remet en cause les modes d’évaluation, c’est sûr. Oui, effectivement, s’il y a une possibilité de by-passer pour avoir la moyenne avec un ChatGPT, plein de gens vont le faire, qui ne vont pas apprendre parce que la bière est meilleure ! Mais c’est peut-être la faute de l’éducation, c’est peut-être parce qu’on fait des choses en trop grands groupes, parce qu’on n’évalue pas les gens individuellement, on ne les rencontre pas individuellement, on ne leur pose pas des questions individuelles, on ne les fait pas plancher sur des livres qu’ils viennent présenter, chacun leur tour, de façon individuelle parce qu’il n’y a pas assez de profs, parce que, etc. C’est plutôt comme ça qu’il faut poser le problème et pas du tout entrer dans une panique morale sur l’évaluation.
J’ai été prof, je vous avouerai que la chose que je détestais le plus dans l’enseignement, c’est l’évaluation.

Contenu/création

L’autre grande question qui se pose, c’est : est-ce que les producteurs de contenus ne vont pas se faire remplacer par des IA ? On a vu des exemples sur TikTok, tout à l’heure, des influenceurs remplacés par des IA.

L’Unesco précise bien, dans son rapport [10], que l’IA peut produire du contenu, mais elle ne peut pas créer, puisqu’elle ne va faire que répéter à partir du lot de données qui lui a servi à faire son entraînement. Ça ne crée pas de nouvelles idées non plus.

C’est quand même un peu compliqué : des chercheurs posent des questions bien foutues à des IA et ça leur ouvre des pistes. Ils disent « je n’avais pas pensé à ça ».
Encore une fois, on n’est pas dans le blanc et noir, on va être dans un modèle de régulation.

Technopolice

Là, je pense qu’on est un peu dans le blanc et noir, la Technopolice, c’est-à-dire le fait qu’on va surveiller les gens et les contrôler.
La reconnaissance faciale par des IA permet, dans les pays où elle est autorisée — en France, c’est interdit grâce à la CNIL —, de reconnaître quelqu’un quand il marche dans la rue ; en Chine, c’est comme ça, il y a des caméras partout. Qui dit caméras dit des lots de données absolument énormes, donc des lots d’entraînement de leurs IA. D’ailleurs, la Chine a offert des tas de caméras au Mozambique pour pouvoir les entraîner sur les personnes de couleur. Ils ont cette logique : en fait, derrière la vidéosurveillance, il y a l’entraînement des IA. Ça pourra servir à autre chose que strictement vidéosurveiller les rues.

En France, pour les JO, on vient d’avoir une loi d’exception qui autorise les logiciels d’intelligence artificielle d’évaluation du comportement des gens et, la semaine dernière, la ministre des Sports a dit : « Si ça marche bien pour les JO, on va continuer après ! ». Eh oui, c’est le principe ! Mais elle dit ça avant d’avoir évalué. Si/alors… mais, en fait, on sait très bien qu’à chaque fois qu’il y a une expérimentation de surveillance, de contrôle, qui est mise en place, elle est prolongée quoi qu’il arrive ! Sauf quand la CNIL réussit à l’interdire, comme la reconnaissance faciale à Nice ou la reconnaissance par le toucher des doigts à l’entrée des cantines des collèges. Ça veut dire qu’on a vraiment besoin d’avoir des institutions. On ne s’en sortira pas par la technique, mais par un travail institutionnel.

Armes autonomes

Il y a la question des armes autonomes : est-ce qu’une arme peut décider toute seule qui elle va tuer ou pas, comment elle va agir ou pas ? Et surtout, est-ce qu’avoir des armes autonomes, c’est-à-dire la capacité de faire la guerre sans prendre de risques, n’est pas une incitation à faire de plus en plus la guerre avec des effets secondaires sur les populations civiles. Mais bon !

J’arrive à ma conclusion, ça tombe bien parce qu’il est presque l’heure.

Éthique de l’IA

La question de l’éthique de l’IA, on entend beaucoup parler aujourd’hui de l’éthique de l’IA et on en entend parler surtout par les gens qui font de l’IA : ça ne serait pas une régulation, qui viendrait de l’extérieur, qui demanderait aux gens de l’IA « expliquez-nous, dites-nous et on va trancher » mais c’est « je vous propose de gérer entre nous, les grands de l’IA, et de vous faire des propositions de loi sur ce qu’on trouve qui serait correct », en fait qui serait correct pour empêcher que les concurrents qui viennent ne nous grignotent les arpions.

On est dans une situation qui n’est pas récente. Ça s’est passé pour la première fois en 76, à Asilomar. Il y a eu une conférence de toutes les entreprises de biotechnologie qui disaient « c’est trop compliqué pour vous, les politiques, les journalistes, les sociologues et les choses comme ça. Vous ne comprenez pas ce qu’on fait donc on va gérer nous-mêmes ce que sont les limites à ne pas dépasser ». Bien sûr, ça n’a jamais marché !
On a là un problème, l’éthique.

Une des règles qu’on peut imposer, les critères qu’on peut imposer, c’est l’explicabilité et l’indication formelle qu’une image, qu’un texte a été produit par une IA. Ce sont deux choses qu’on peut exiger et, attention, on n’a pas l’explicabilité : aucun système d’IA connexionniste ne peut expliquer ce qu’il fait puisqu’il est probabiliste.

Les objectifs

Il y a des critères proposés par l’Unesco, mais globalement le premier critère qu’ils mettent en avant, c’est : est-ce que les IA respectent les droits de l’homme, les droits des humains, les droits humains ?

Régulation

On a eu des choses, mais maintenant, derrière la régulation, il faut se poser la question de la sanction : il n’y a pas de régulation s’il n’y a pas une sanction. D’ailleurs, nos amis des médias sociaux commencent vraiment à réagir depuis que l’Europe peut leur imposer des amendes qui sont assez conséquentes.

Le problème de la régulation politique, tous les gens des techniques contemporaines, des techniques modernes le disent, c’est trop lent, ça ne va pas assez vite. Oui, la société ne va pas assez vite, ou bien ce sont eux qui vont trop vite. Au nom de leur vitesse, il faudrait que la société n’ait pas de droit de regard et c’est un vrai problème juridique et politique.

Géopolitique

C’est aussi un problème géopolitique parce que l’IA est devenue un enjeu stratégique.
Par exemple, les États-Unis veulent retirer de Chine toute la fabrication des puces, pour éviter que les Chinois apprennent sur des nouvelles puces qui seraient inventées aux États-Unis. Trop tard ! Ils savent inventer des puces de la même manière que les autres !

Derrière, on a la question des armes d’IA, on a toute une série d’aspects.

Toute régulation a aussi, d’emblée, une échelle mondiale. Quand l’Europe écrit le RGPD [11], le DMA [12], le DSA [13], ça a une conséquence sur les États-Unis. Et quand les États-Unis, grâce à mon héroïne Lina Khan [14], vont sanctionner Amazon, ça aura des conséquences en Europe et, j’espère, dans le monde entier.

Cette question géopolitique se calcule autour de la notion de souveraineté numérique : est-ce que l’Europe est capable de créer du cloud ? Est-elle capable d’avoir des logiciels pour exploiter les données à la hauteur ?

Une blessure narcissique

Je terminerai sur une réflexion : je me demande si on n’est pas en train de vivre une blessure narcissique. L’humain vivrait une blessure narcissique nouvelle. Ça lui est déjà arrivé quand Freud découvre l’inconscient, met des mots, met en paroles ce qu’est l’inconscient et qu’on comprend ce que disait Rimbaud déjà « je est un autre », qu’il y a quelque chose qui nous dirige et qui n’est pas de l’ordre de notre volonté. C’est une grosse blessure narcissique, bien sûr, pour la conception de l’homme.

Là, on est dans un phénomène nouveau.

D’un côté, on remet en cause cette idée que seuls les hommes parlent ou, plutôt, que seuls les humains ont une communication qui leur permet de créer des concepts. Restons plus modestes ! On est en train de s’apercevoir que toute une série d’animaux, y compris des animaux étranges, comme le blob, sont capables de créer des concepts, pas du langage, on n’en est pas là, mais suffisamment de concepts pour échanger, communiquer entre eux sur des événements.
On s’aperçoit que l’homme est une des parties du vivant, qu’il n’est pas quelque chose qui est au-dessus du vivant, séparé du vivant.
D’un autre côté, on s’aperçoit que les machines deviennent capables de parler, d’inventer des images, d’illustrer, d’imiter.

Donc, l’humain se demande quelle est sa place là dans cette affaire. Depuis Descartes, « je pense donc je suis », c’était « je suis le maître de la nature parce que je suis le seul à avoir accès au langage », l’humain est maître du monde.
On est dans un moment de blessure narcissique et c’est peut-être assez intéressant de se servir de cela pour essayer d’évaluer les discours qu’on va avoir.

J’ai essayé de vous montrer qu’il y a deux types d’outils qu’on peut avoir aujourd’hui, la question des paniques morales et se demander : ce dont on nous parle, là, est-ce que ce n’est pas une nouvelle panique morale qui ne serait pas sérieuse ? Et puis réfléchir au sens que ça, au sens profond que ça a pour notre humanité : qu’est-ce qui nous reste, qui est important dans notre vie d’humain, nos relations, nos projets de société, notre volonté de vivre ensemble, notre protection de la planète, toutes ces choses-là et ne pas réduire notre humanité à quelque chose de mécanique, de mécaniste, de dominant, des choses comme ça. Les machines, de ce côté-là, risquent effectivement de ne pas être plus mauvaises que nous.

J’espère que vous saurez vous servir de ces outils-là. Je vous remercie de m’avoir écouté aussi longtemps.

[Applaudissements]