Présentatrice : Grand applaudissement à notre keynoter, Jean-Emmanuel Bibault. Venez ici au milieu.
Jean-Emmanuel Bibault, vous êtes cancérologue et chercheur en intelligence artificielle appliquée à la santé. Vous avez un doctorat en informatique biomédicale et vous avez fait votre post-doctorat à l’université Stanford, dans un laboratoire d’intelligence artificielle appliquée à la santé.
Vous êtes aussi professeur des universités, praticien hospitalier à l’Université de Paris et à l’Hôpital européen Georges-Pompidou et chercheur à l’Inserm.
Je n’ai pas fini !
Vos recherches portent sur le machine learning [1] appliqué au diagnostic et à la prédiction.
Vous avez été lauréat, en 2019, de l’Académie nationale de médecine pour tous vos travaux par rapport à la réponse thérapeutique par l’intelligence artificielle. Dans ce contexte, vous avez aussi développé pas mal d’applications iPhone et Android, cofondé une start-up que vous avez vendue en 2014 et, dans le temps qui vous reste, vous êtes, en plus, écrivain, vous avez publié 2041, Odyssée de la médecine : Comment l’intelligence artificielle bouleverse la médecine ? où vous retracez l’histoire de l’intelligence artificielle appliquée à la médecine et comment cela va changer nos soins aujourd’hui et dans le futur.
Jean-Emmanuel Bibault : C’est ça.
Présentatrice : Petit curriculum, évidemment.
[Applaudissements]
Jean-Emmanuel Bibault : Merci.
Présentatrice : La scène est à vous, Jean-Emmanuel Bibault.
Jean-Emmanuel Bibault : Je suis très content d’être devant vous aujourd’hui pour parler de ce sujet qui me tient à cœur, vous avez dû le comprendre, et particulièrement content de parler devant une assemblée de développeurs comme ça, ça me change un peu, parce que je suis plutôt habitué à parler devant des chercheurs ou des médecins.
Définitions et concepts
Je vais passer assez vite, en fait, sur cette partie de la définition et des concepts, à mon avis, vous connaissez ça très bien. Je voulais quand même revenir sur quelques aspects.
On parle effectivement d’IA, mais maintenant tout le monde le dit, donc je pense que vous devez le savoir aussi : l’IA est, en réalité, un terme assez mauvais ; c’est dérivé de l’anglais et intelligence, en anglais, ça ne veut pas dire « intelligence humaine », ça veut dire plutôt « capacité d’analyse ou de renseignement ». On a donc pris ce terme qui, au final aujourd’hui, est utilisé partout, mais n’est pas tout à fait adéquat. Peu importe !
Aujourd’hui, on va surtout parler d’IA statistique ou de machine learning, mais vous savez aussi, je pense, qu’il y a d’autres types d’IA plus anciennes, notamment symboliques, qu’on appelle aussi des systèmes experts, dont on va parler au tout début.
En médecine, de l’IA, ça peut servir à faire quoi ?
Ça peut servir à faire ce que savent faire les médecins ou les humains, donc, typiquement, de l’analyse d’images. Ça peut être des examens de scanners, radios, IRM, ou alors des biopsies, c’est-à-dire des lames qu’on regarde sous microscope.
Ça peut servir à poser un diagnostic.
Pour tout cela, c’est « relativement simple », entre guillemets, de vérifier que l’IA ne fait pas n’importe quoi. Là où c’est un peu plus compliqué, c’est lorsqu’on se sert de ces algorithmes-là pour faire ce que les humains ne savent pas faire, typiquement des tâches de prédiction qui vont, ensuite, permettre de faire de la personnalisation des soins. On en parle de plus en plus et, en réalité, on n’y est pas encore tout à fait.
L’IA est une discipline qui a eu une histoire assez riche, avec des périodes très fastes, notamment sur le plan des financements, surtout aux États-Unis, mais aussi des périodes, on va dire, un peu plus lentes, puisque la communauté du computer science, aux États-Unis, s’était un peu détournée de cette thématique-là dans les années 70/80, puisqu’il y avait eu des problèmes théoriques et on commençait à penser qu’en réalité on n’arriverait jamais à créer une machine capable de mimer certaines capacités cognitives.
Ensuite, dans la fin des années 80, puis 90 et, maintenant, surtout depuis 2012, notamment avec l’apparition d’AlexNet [2] qui était un des premiers réseaux neuronaux profonds utilisant des GPU [Graphics Processing Unit], qui avait été mis au point par un des thésards de Geoffrey Hinton, que vous devez connaître aussi, on a subi, on a connu une accélération très significative de l’IA dans tous les domaines, notamment en médecine.
Pourquoi est-ce très utilisé en médecine ?
En fait en médecine, pendant longtemps, on a fait ce qui est à gauche ici, c’est-à-dire des systèmes où on allait demander à des experts d’un domaine, en l’occurrence des médecins, de définir les règles qui, selon eux, permettaient de prendre une décision ou, par exemple, de poser un diagnostic. Ça a été utilisé, par exemple, dans des systèmes de recommandation d’antibiothérapie, notamment à Stanford, dans les années 50/60, sans jamais que ça ne s’impose vraiment.
De nos jours, ce qu’on fait et ce dont on parle quand on fait de l’IA, c’est surtout du machine learning, de l’apprentissage statistique, c’est la partie de droite, où là, on ne va pas demander à des experts humains de créer des règles. On va fournir un ensemble de données à un algorithme qui va devoir apprendre, à partir de ces données-là, à créer ses propres règles pour remplir l’objectif qu’on lui a défini.
Actuellement, en médecine, on connaît un vrai âge d’or de l’IA, pour deux raisons.
La première raison, c’est que peut-être que quand vous étiez très jeune ou quand vos parents allaient chez le médecin, il avait l’habitude de griffonner, avec une écriture souvent illisible, dans un dossier médical qui, ensuite, allait être rangé dans une armoire. Maintenant, tout cela est terminé. Toutes les données médicales, ou presque, sont digitalisées et, surtout, on a accès à des données très hétérogènes, de très nombreux types différents. Je ne vous ai mis que quelques exemples, sachant qu’ils sont quasi innombrables. Ce sont donc toutes ces données-là, qui sont maintenant digitalisées, que l’on peut utiliser beaucoup plus facilement que l’écriture illisible manuscrite du médecin de l’époque.
Et puis, en parallèle de cet accès très facile à la donnée, on a – vous le savez aussi, je pense – accès à des frameworks qui sont beaucoup plus simples d’utilisation qu’à l’époque.
Pour un peu comparer, ce n’est pas tout à fait exact, je vous ai mis le Perceptron Mark II, 1953. Vous voyez que chacune des cellules est, entre guillemets, « reliée » par un vrai fil électrique, donc, on doit s’amuser à modifier ça si on a besoin d’optimiser les choses. Maintenant, évidemment, tout cela est virtualisé dans des frameworks ; les plus utilisés sont plutôt PyTorch et TensorFlow, plutôt PyTorch en ce moment, mais sans doute qu’il va y en avoir de plus en plus. Cette slide est intéressante : ça permet de prendre conscience aussi que la majorité des frameworks sont édités et soutenus par des éditeurs américains, TensorFlow Google, Meta pour PyTorch surtout. Et puis, heureusement, on a aussi quand même l’Inria [Institut national de recherche en informatique et en automatique], qui fait Scikit-learn [3], qui est vraiment très utilisée partout dans le monde pour faire ce genre de chose.
La conjonction de ces deux événements – les données et la facilité, la puissance programmatique –, fait qu’on voit ce genre de Une dans beaucoup de journaux [Affichage de diverses Unes de journaux américains, NdT], et ces Unes, même si elles peuvent parfois paraître un petit peu exagérées, je vais vous montrer à la fin de la présentation, notamment avec l’apparition et la démocratisation des LLM [Large Language Model], qu’on n’est peut-être plus si loin de ça.
En médecine, il y a des thématiques, des difficultés qui sont un peu spécifiques. Souvent, en fait, on cherche à faire du machine learning sur un nombre de patients très faible, donc c’est très discutable, un nombre de patients très faible et un nombre d’événements à détecter très faible, donc, évidemment, on prend le risque d’avoir des algorithmes qui sont mauvais.
On a des données qui sont, très souvent, peu structurées, malgré ce que je vous ai dit. Si vous vous intéressez à la thématique des entrepôts de données de santé, c’est extrêmement mal structuré, il y a un très gros travail à faire sur cette thématique-là, donc, il y a beaucoup de risques d’algorithmes mauvais, notamment le risque que vous connaissez, d’overfitting [4].
Le deuxième problème qui ne plaît pas trop, en général, aux médecins, c’est l’effet boîte noire de certains algorithmes, pas tous, bien que, maintenant, on a des méthodos que vous devez connaître, j’imagine, que je vais vous montrer aussi, qui permettent d’apporter une certaine couche d’interprétabilité à de l’IA.
Exemples d’applications
J’ai pris le parti, pour aujourd’hui, de vous faire des exemples d’applications en partant du type de données qu’on exploite pour arriver à un résultat.
On va partir des données textuelles, c’est-à-dire, typiquement, le dossier médical écrit qui est stocké sur l’ordinateur du médecin ou, la plupart du temps, dans un entrepôt de données de santé de l’hôpital.
Le premier travail dont je voulais vous parler et qu’on avait fait quand j’étais à Stanford, consistait à prédire dix ans à l’avance votre risque de décéder d’un cancer de la prostate. Pourquoi est-ce intéressant ? En fait, le cancer de la prostate est le cancer le plus fréquent chez l’homme, de très loin, mais c’est aussi le cancer qui est le plus sur-diagnostiqué. Ça vous semble loin pour l’instant, mais quand vous aurez 60 ans, 65 ans, ça vous parlera un peu plus. Le problème, quand on est sur-diagnostiqué, c’est qu’on pose un diagnostic de cancer de la prostate, mais, en fait, d’une maladie qui ne va jamais engendrer de symptômes pour vous et qui ne va jamais menacer votre pronostic vital. Donc, toute la difficulté, c’est d’arriver à séparer les gens qui sont à très bas risque des gens qui sont à très haut risque de décéder de leur cancer de la prostate dix ans après le diagnostic.
Pour cela, on avait récupéré une base de données américaine, DNCI, qui comportait à peu près 80 000 patients, qui avaient été colligées dans le cadre d’un essai prospectif sur dix centres américains, et on a créé deux modèles qui permettaient de prédire la survie globale à dix ans et la survie du cancer de la prostate à dix ans, avec un framework que, je pense, vous connaissez tous, XGBoost, qui est quasiment le gold standard lorsqu’on fait, on va dire, des analyses de données tabulaires. Ensuite, on a ajouté une petite couche d’interprétabilité avec les valeurs de Shapley [5] – peut-être que vous connaissez, sinon je vais vous expliquer – et, ensuite, on a déployé tout ça en ligne pour pouvoir, en fait, faire de l’inférence, c’est-à-dire mettre des caractéristiques et avoir une réponse.
Parmi les 80 000 patients, il y avait un peu plus de 8000 patients effectivement atteints d’un cancer de la prostate, qu’on a utilisés pour l’entraînement, avec ces caractéristiques-là, sur lesquelles je vais passer assez vite.
On a obtenu ces résultats-là. Je ne vais pas repasser sur chacune des metrics, mais ça me permet de dire que l’importance de la connaissance, de la définition de chacun de ces metrics va faire en sorte que vous allez comprendre et que vous allez utiliser un modèle à bon escient en médecine.
On a l’interprétation des résultats de ce modèle-là sur l’ensemble des 8000 patients, puisqu’on a calculé les valeurs de Shapley, du nom d’un mathématicien anglais des années 50, qui travaillait notamment sur la théorie des jeux, qui a permis de définir ces valeurs qui permettent, en fait, dans le cas de XGBoost ou d’un decision tree, gradient boosté, de connaître la contribution de chacune des caractéristiques à la décision du modèle à l’échelle de la population globale, avec ici, lorsque la valeur diminue, elle diminue le risque de décès et, lorsque la valeur augmente, elle augmente le risque de décès.
On fait cela sur la population globale, mais là où c’est intéressant, une fois que vous l’avez mis sur Internet et fait de l’inférence, c’est que vous avez la même chose à l’échelle d’un seul patient, donc, vous pouvez voir les raisons pour lesquelles le modèle vous donne une probabilité de décéder pour un patient, donc, éventuellement, agir sur certaines de ces caractéristiques-là et décider, prendre une décision médicale adaptée aux caractéristiques du patient. Cela est très important pour la fiabilité et pour la décision médicale.
Je vous donne un autre exemple, un peu plus ancien, qui avait été publié, sur 76 000 patients, à partir des dossiers médicaux d’un hôpital. Ils ont cherché à prédire 78 maladies à l’avance. Ça marche assez bien. Ils ont comparé leurs méthodes, qu’ils ont appelée DeepPatient, à d’autres méthodes statistiques plus simples. On arrive à prédire, par exemple, le diabète, le cancer, même la schizophrénie, avec des performances assez bonnes. Ça veut dire quoi ? Ça veut dire que si vous allez aux urgences, ou si vous allez à l’hôpital pour x ou y raisons, théoriquement, on peut déjà se servir de ces données-là pour prédire votre risque d’autres maladies. Ça pose des questions évidentes sur le plan éthique, dont on parlera un petit peu à la fin.
Ce sont deux exemples. Il y en a d’innombrables, il y a des centaines de publications presque tous les jours sur cette thématique-là d’utilisation de données tabulaires.
À partir d’images
Maintenant, je vais vous parler d’imagerie médicale. À partir d’images, que peut-on faire quand on utilise du machine learning et, principalement, du deep learning [6] ? Dès qu’on parle d’analyse d’images, on va surtout parler de deep learning et des CNN [7].
Pour résumer les choses, quand on prend des images médicales, on peut faire de la détection, c’est-à-dire, par exemple, déterminer s’il y a un nodule dans le poumon pour un cancer du poumon, s’il y a une tumeur cérébrale, s’il y a une hémorragie cérébrale, ou alors, plus récemment, s’il y a un cancer du sein.
Cet été, un essai a été publié : sur 80 000 patientes suédoises, on a évalué la capacité d’une IA à détecter un nodule dans le sein, on l’a comparé à des radiologues humains et on a montré qu’une IA plus un radiologue, faisait aussi bien que deux radiologues. Donc, la prochaine étape, ça va être l’IA seule versus les deux radiologues.
Ça permet aussi de faire de la caractérisation, c’est-à-dire segmenter automatiquement l’image pour savoir où sont les organes, par exemple si on fait de la radiothérapie, faire du diagnostic, faire du staging, c’est-à-dire évaluer le stade de la maladie – c’est ce qu’on appelle le bilan d’extension, s’il y a si des métastases ou pas –, et après faire du monitoring, c’est-à-dire déterminer, avec le temps et avec le traitement, si le patient répond bien au traitement, c’est-à-dire si la maladie se réduit avec le traitement.
Je vais vous montrer un des premiers exemples vraiment emblématique, qui date déjà de 2017 – à l’échelle de machine learning c’est déjà très vieux –, qui est CheXnet, un réseau neuronal qui a été réalisé par une équipe de Stanford où ils ont entraîné un réseau profond sur à peu près 100 000 radiographies de thorax de face, et il arrive parfaitement à retrouver une quinzaine de maladies qu’on peut diagnostiquer sur des radiographies de thorax de façon automatique. La petite subtilité dont on s’est rendu compte quelque temps plus tard, c’est qu’en fait, pour certaines de ces maladies-là, l’algorithme ne voyait pas la maladie elle-même sur la radio, mais voyait, par exemple, le label de l’hôpital sur le côté. Il y avait un biais : dans cet hôpital-là, il y avait plus de maladies que dans d’autres ; en fait, il trouvait la maladie non pas à cause de la radio, mais à cause du label qui était sur le côté.
Tout cela, ce sont des subtilités qui vont être très importantes pour la suite.
Un autre exemple, toujours sur le thème de l’exploitation de données d’imagerie, c’est ce papier qui a été fait, il y a déjà quelque temps déjà, par une équipe australienne, où ils ont cherché à prédire la longévité d’une personne en utilisant uniquement son scanner, pas de données médicales autres, antécédents ou quoi que ce soit, uniquement le scanner et, à priori, surtout des scanners qui semblaient à première vue normaux à un œil humain classique. Ils ont donné ça à un algorithme qu’ils avaient entraîné et ils arrivent parfaitement à voir les patients qui sont très à risque de décès à cinq ans des autres. Ça veut dire quoi ? Ça veut dire que si vous allez aux urgences, une fois de plus cet exemple est toujours bon, pour passer un scanner pour une suspicion d’appendicite, même si votre scanner est normal, théoriquement, on pourrait entraîner des IA pour voir si, à cinq ans, vous êtes à risque de décéder ou pas, sans forcément qu’on sache exactement la raison pour laquelle vous êtes à risque de décéder. Ça peut donc être un petit peu angoissant.
À partir d’autres images
Maintenant, on va partir sur des choses qui vont vous étonner un peu plus. Au début, c’est relativement classique et, après, vous allez voir des choses plus originales.
On va parler d’entraîner des IA à partir d’autres images, non plus des images radiologiques, comme je viens de vous montrer, mais d’autres choses.
L’exemple très connu date de 2016, Stanford une fois de plus. Deux thésards, Andre Esteva et Brett Kuprel – leur présentation est sur YouTube, je vous invite à la regarder si vous le voulez, c’était au Google TensorFlow Day de 2017 [8] –, ont entraîné un réseau neuronal bien connu, un Inception-V3 CNN, à reconnaître des lésions cutanées et ils ont comparé les performances de leur algorithme à celles de 21 dermatologues experts. Là où c’est intéressant, c’est que ces deux thésards sont vraiment computer science, ils n’ont rien à voir avec la médecine et, en fait, leur algorithme fait mieux que les 21 dermatologues experts. Ce papier-là, par la suite, a été copié plein de fois par plein d’équipes dans le monde. Il montre qu’on pourrait, théoriquement, utiliser des algos pour s’auto-scanner la peau et voir si on a un risque de mélanome. Maintenant, il y a plein d’applications sur l’App Store, le problème, c’est qu’on ne sait pas très bien quels sont les algorithmes qui sont utilisés dans ces applis-là, à priori ce n’est pas celui-là. À mon avis, c’est assez problématique de s’en servir en ayant confiance, sans savoir exactement ce qui a été fait.
Et puis, si je continue un peu, toujours sur les imageries non radiologiques, vous avez les fonds d’œil. Google, notamment, a développé une machine capable d’analyser automatiquement les fonds d’œil, cet examen très désagréable que vous faites quand vous allez chez l’ophtalmologue, par exemple, si vous avez un diabète, pour vérifier que vous n’avez pas de rétinopathie ou pas de décollement de rétine. Donc, là, on peut le faire automatiquement et ça marche très bien aussi. Google a fait un essai clinique qui s’est terminé cet été en Inde, et dispose donc d’une machine parfaitement capable de diagnostiquer et de « grader » la rétinopathie diabétique, une maladie qui va être de plus en plus fréquente à cause du surpoids et à cause du diabète qui va en découler.
Et puis, si on va toujours un peu plus loin, je vous prends un peu par la main pour aller toujours sur des trucs de plus en plus étonnants. Ce papier, qui date déjà de quelques années, avec une coautrice que vous connaissez peut-être si vous faites un peu de machine learning, Fei-Fei Li [9], c’est elle qui a créé ImageNet [10], qui est la base de données dont on se sert pour faire du benchmarking en computer vision. Elle a donc travaillé sur cela et, à mon sens, elle a contribué à une des premières étapes qui va nous mener à la chirurgie entièrement automatisée. La première étape, c’est d’avoir des algorithmes capables, en direct sur des vidéos et non plus sur des photos, de reconnaître les instruments chirurgicaux pour pouvoir, éventuellement ensuite, les manier. Vous savez qu’on a déjà les robots chirurgicaux, notamment le Da Vinci, mais ce n’est pas un vrai robot ; en fait, c’est simplement un chirurgien qui le pilote à distance. On peut donc imaginer avec de l’IA, notamment avec ce genre d’algorithme, qu’on puisse piloter, de façon totalement autonome, ce genre de robot. Ça serait un peu l’équivalent du cerveau : on a déjà les mains, il ne nous manque plus que le cerveau pour le faire. Je pense qu’avec ce genre de chose, ça marche très bien. Dans les quelques années qui viennent, peut-être 10/15 ans, on va avoir des opérations, pour les plus simples, entièrement automatisées.
Et puis, de plus en plus étonnant, sachez qu’on peut déjà utiliser votre compte, vos photos Instagram, si vous en avez un, pour dépister la dépression, voire diagnostiquer la dépression. Faites attention à ce que vous mettez sur Instagram. Théoriquement, quelqu’un de malintentionné pourrait prendre votre compte, l’analyser et voir si vous êtes à risque suicidaire ou pas. Ça marche aussi très bien en fonction des couleurs qui figurent sur la photo et du filtre qui est utilisé, on arrive à voir et à discriminer les gens qui sont dépressifs ou qui ne sont pas dépressifs. Donc, attention aux données que l’on met spontanément et volontairement sur Internet.
Je voulais vous parler de ce papier-là, [Deep Learning Prediction of Cancer Prevalence from Satellite Imagery] [11] qu’on a fait aussi, toujours avec la même équipe, où on a cherché à prédire la prévalence du cancer uniquement à partir d’images satellitaires. Pourquoi c’est important ? En fait, on manque vraiment de données épidémiologiques à haute résolution spatiale sur le cancer ; en France, par exemple, elles sont à l’échelle du département et de la région, c’est largement suffisant, on a donc besoin de trouver des nouvelles façons de le faire. Pour cela, on a utilisé un réseau neuronal qui s’appelle ResNet-50, pour analyser des images satellitaires, exactement les images satellitaires que vous avez sur Google Maps.
On a téléchargé 700 000 images pour les sept plus grosses villes américaines, à peu près 14 millions et demi d’habitants, on les a passées à travers ResNet-50 pour extraire un vecteur mathématique qui représente l’image, qu’on a ensuite utilisé pour prédire le risque d’avoir un cancer dans l’image. Ça marche plutôt bien sur les sept villes que l’on a testées. Pour vous montrer un petit peu à quel point ça marche bien, je vous ai mis ici, à gauche, la vraie carte de la prévalence du cancer, c’est-à-dire la répartition du cancer à Los Angeles, et, à droite, la carte telle qu’elle est prédite par cette méthode-là. En fonction de l’endroit où vous habitez, de votre environnement, c’est un bon reflet aussi de vos comportements et de vos consommations, etc., donc de votre risque de cancer.
IA générative
On va parler un petit peu d’IA générative, puisque, maintenant, c’est quasi impossible de parler d’IA sans parler d’IA générative.
Vous savez que les modèles GPT notamment, mais pas qu’eux, ont été entraînés avec une très forte intervention humaine. Vous savez que ce ne sont pas simplement des données qu’on a fournies à un algorithme et qui a appris, après, à faire des réponses. Il y a eu, notamment à l’étape 2, au milieu, l’entraînement d’un réseau qui permettait de « grader » les réponses, qui a ensuite été utilisé pour faire du reinforcement learning, pour faire les meilleures réponses possibles.
En médecine, cela fait déjà de très bonnes réponses avec quelques données scientifiques que l’on a publiées à peu près l’été dernier, en 2023.
Quelques exemples.
Premier exemple : ces modèles-là sont capables de passer l’USMLE [United States Medical Licensing Examination], c’est-à-dire la portion écrite de l’examen américain pour devenir médecin, avec 85 % de bonnes réponses ; c’est largement au-dessus de la majorité des étudiants américains en médecine.
Deuxième donnée intéressante, parfois presque inquiétante pour nous, les médecins, c’est la capacité, c’était GPT-4, à trouver, à partir de tableaux cliniques simples, c’est-à-dire de symptômes, une somme de symptômes, le bon diagnostic. GPT-4 trouve à 87 % le bon diagnostic, alors que si vous demandez aux médecins humains la même chose, ils ne vous trouvent le bon diagnostic qu’à 65 %. C’est assez problématique. Ça veut dire que les médecins, évidemment, n’ont pas forcément la mémoire suffisante pour connaître et raisonner sur l’ensemble des pathologies existantes et c’est particulièrement vrai pour les maladies rares. Il y a déjà des anecdotes, notamment aux États-Unis, de familles avec des enfants avec des symptômes inexpliqués de maladies rares, qui étaient en errance diagnostique, qui ont rentré les données, les symptômes sur GPT-4, et qui ont eu un diagnostic qui, ensuite, a été vérifié comme étant effectivement véridique par un médecin. Donc, très clairement, les LLM vont avoir un rôle à jouer sur les maladies rares, j’en suis convaincu.
Et puis souvent, quand on donne ces données-là, quand on fournit ces données-là, on nous explique qu’en fait l’IA ne remplacera jamais le médecin – je suis relativement d’accord –, parce qu’il n’y aura jamais la relation médecin-patient et l’empathie ; en fait, c’est à priori faux. Ça a été évalué aussi dans un très grand journal américain, Jama Internal Medecine, en 2023. On a demandé à des experts patients, des experts humains, et même médecins, de noter la capacité de ChatGPT à simuler de l’empathie et de la comparer, pour les mêmes cas cliniques, à celle de vrais médecins humains. Eh bien, à priori, ChatGPT a plus d’empathie que les médecins humains, en tout cas dans cette étude-là. Ça se comprend assez facilement, on a tous, moi compris, été un patient qui consultait son médecin généraliste en fin de journée, qui avait vu 50 patients, qui n’en pouvait plus et qui n’était pas forcément super sympa. Les LLM n’auront pas ce problème-là, ils ne se fatiguent jamais.
Dans les années qui viennent, je pense qu’il va y avoir beaucoup de développements sur ce qu’on appelle le patient-facing IA, c’est-à-dire l’IA face au patient. Contrairement à tous les outils que je vous ai montrés juste avant, qui sont des outils qui sont faits pour les professionnels de santé, pour la majorité d’entre eux, ça va être des outils qui vont être utilisés par les patients eux-mêmes, en direct. Ça va donc, à mon avis, complètement shunter les médecins de certaines tâches, notamment diagnostiques.
Évidemment, tout ce que j’ai montré semble extraordinaire, mais on est loin d’un monde idyllique.
Fiabilité et sécurité
Il me reste deux minutes, je vais donc passer relativement rapidement.
Un des problèmes, mais ce n’est pas le seul, c’est le potentiel d’attaque, adversarial, je pense que vous devez connaître ça aussi dans d’autres domaines.
Je vous ai mis cet exemple-là où on a généré l’image bruitée du milieu dans le but express de tromper un réseau de reconnaissance d’animaux par exemple sur des photos :
à gauche, vous avez l’image non retouchée, le réseau vous dit « je vois un panda, mais je ne suis pas très sûr de moi, à 57 % » ;
à droite, vous avez l’image fusionnée entre l’image d’origine et l’image générée exprès. À ce moment-là, vous la fournissez au même réseau et il vous dit « là, je suis sûr de moi, c’est un singe gibbon à 99 % » ;
À l’œil humain, évidemment, nous ne voyons pas la différence entre les deux images.
Ça pose problème. Si on se met à développer des systèmes d’analyse à haut débit d’imagerie médicale, il faut être absolument certain que la gestion des données est sûre du début à la fin.
Vous allez me dire « oui, mais je ne vois pas trop le rapport avec la médecine ». En fait, il y a un rapport énorme avec la médecine. Le potentiel de dangerosité des attaques adversarial sur des systèmes médicaux basés sur le deep learning a été évalué par une équipe d’Harvard, avec tous les exemples que je vous ai montrés au cours de la présentation, le fond de l’œil, la radiographie du thorax ou la dermoscopie. On peut complètement retourner un diagnostic très facilement en faisant des attaques adversarial plus ou moins complexes, plus ou moins difficiles à faire, parfois très faciles à faire, donc complètement ridicules, mais parfois totalement invisibles à l’œil nu. Ça pose donc des questions sur la sécurité des données et la sécurité de tout le process d’analyse qui ira dans les hôpitaux ou dans les systèmes de santé nationaux.
Éthique
Évidemment, il y a aussi des problèmes éthiques. On ne pourra pas parler de tous les problèmes, mais il y a des risques de dérives et d’usages non appropriés.
Il y a tout ce qui est biais de données, je vous en ai parlé un petit peu sur la radiographie du thorax, en fait, on s’est rendu compte que c’était le label qui était interprété et pas la radio.
C’est pareil pour le papier sur l’interprétation de dermoscopie. On s’est rendu compte que l’algorithme ne marchait pas bien du tout sur des peaux noires, tout simplement parce que dans le dataset d’entraînement, il n’y avait pas de peaux noires, il n’y avait que des peaux blanches, donc, ça ne marchait pas pour d’autres types de peau. Il faut savoir cela avant de se servir de ces outils-là, sinon on va faire complètement n’importe quoi.
Il y a des choses encore un peu plus exotiques.
Par exemple, cette équipe du Japon qui a fait une première publiée en 2018, et puis une deuxième en 2023 : ils ont cherché à interpréter l’activité cérébrale à partir d’une IRM fonctionnelle pour, entre guillemets, « lire vos pensées », sans que, évidemment, vous ne les disiez. Je vous ai montré quelques exemples : on arrive à reconstituer les lettres ou les formes auxquelles pensent les personnes directement à partir de l’interprétation par deep learning de signaux cérébraux. Ça marche très bien, parce que, même si vous avez en haut l’image à laquelle vous étiez en train de penser ou l’image que vous étiez en train de regarder, en bas, vous avez l’image telle qu’elle est reconstituée par le réseau neuronal, qui « voit » ce à quoi vous pensez, entre guillemets. Ça veut dire quoi ? Ça veut dire que, potentiellement, on va pouvoir faire des interrogatoires non consentants et extrêmement puissants.
Les perspectives
Il y a beaucoup de limites en médecine, évidemment.
Comment va-t-on faire pour tester la précision future de ces algorithmes-là ? Comment va-t-on valider leur utilisation en routine clinique ? Tout ce que je vous ai montré, c’est in silico, quasiment ; c’est très rare qu’on ait évalué cela sur de vrais patients. Va-t-il falloir faire des essais randomisés comme on fait pour les médicaments, par exemple ? Et puis, de façon plus globale, comment va-t-on faire pour faire évoluer la médecine si tout ce qu’on fait au quotidien repose sur des algorithmes qui sont, par essence, entraînés sur des données rétrospectives ? Ça pose un vrai problème.
Je vous montre un exemple qui date déjà d’il y a quelque temps sur tous les devices de l’année 2017/2018, approuvés par la FDA [Food and Drug Administration] qui est l’agence américaine de gestion des dispositifs médicaux et des médicaments. En fait, sur tout ce qui est vendu et approuvé, il n’y en a qu’un seul qui a fait l’objet d’une vraie validation clinique. Ça veut dire que ce n’est pas parce que vous avez un dispositif médical qui est labellisé IA qu’il est forcément bien, potentiellement, il peut ne pas avoir été validé, donc faire à peu près n’importe quoi.
Que va-t-on voir dans les années qui viennent ?
Je ne pense pas qu’on ait vraiment l’IA contre les médecins, mais jusqu’à quand ? Je dirais qu’il va y avoir une redéfinition du rôle du médecin, notamment avec les algos que j’ai montrés à la toute fin sur les LLM, probablement moins de technique et plus d’empathie, plus d’humain. C’est clair, je le vois au quotidien en radiothérapie, on passait beaucoup de temps devant un ordinateur pour contourer et définir les volumes de traitement, on va y passer moins de temps. Je pense qu’il faut libérer du temps pour faire plus d’humain.
Mais, en toute objectivité, il est vrai qu’on peut se poser la question de jusqu’à quand ça va être comme ça. Peut-être que certaines des tâches médicales qui ont lieu actuellement, qui sont faites par des humains, vont être remplacées totalement par des algorithmes.
Et puis, avec les progrès de la robotique, pourquoi pas, par exemple en chirurgie, des robots humanoïdes ou des robots chirurgiens ?
Je vous remercie pour votre attention. Si on a quelques questions ou du temps, pas de soucis.
[Applaudissements]
Questions du public et réponses
Présentatrice : Merci Jean-Emmanuel. On a du temps pour des questions. Levez la main si vous avez des questions, on va passer vous apporter le micro. Si vous avez des questions pour Jean-Emmanuel, n’hésitez pas, montrez bien.
Public : Bonjour. La grosse question que j’ai, c’est comment vous faites pour vous rendre compte qu’il y a un biais ? Là, c’est bien, ce n’est pas très grave, ce sont des données de test, etc., mais si on parle d’une implémentation à échelle humaine, c’est critique !
Jean-Emmanuel Bibault : Absolument. Il y a deux choses.
D’abord, première chose. On se doit d’appliquer la règle, en gros, que l’on utilise un algorithme sur une population qui correspond à la population d’entraînement. Typiquement, sur la dermato, ce n’était pas le cas.
La deuxième règle, c’est qu’en fait, avec des méthodes d’interprétabilité – ça peut être les valeurs de Shapley si vous faites du XGBoost, ça peut aussi être des cartes de chaleur si vous faites du deep learning d’analyse d’images –, vous allez pouvoir voir si ce qui a été « vu », entre guillemets, par l’IA correspond à l’état des connaissances actuelles médicales ou à l’intuition médicale. Ça permet vraiment de vérifier que ça fonctionne bien.
Et la dernière chose, dont je parlais à la fin, c’est que le vrai, seul bon test, c’est de tester dans le cadre d’un essai clinique, potentiellement prospectif, l’IA que vous voulez utiliser pour être certain qu’elle ne fait pas pire qu’autre chose. Au même titre qu’on ne met pas sur le marché un médicament qui n’a jamais été testé sur des patients, vous savez que ça passe par beaucoup de phases – il faut quasiment dix ans pour développer un médicament, parfois plus – au même titre, je pense que pour certains types d’IA, pas tous, mais pour certains types, on aura besoin de faire des essais cliniques comme ça.
Public : Bonjour et merci pour cette présentation. J’ai une question sur l’adoption de ce type de technologie. Aujourd’hui, est-ce qu’en études de médecine, par exemple, ce sont des choses qui sont déjà implémentées dans les programmes ? Est-ce qu’on va voir, d’ici peut-être 10/12 ans, des médecins augmentés, ou est-ce que c’est encore complètement utopique, un peu comme la voiture autonome en France ?
Jean-Emmanuel Bibault : En fait, il n’y a pas de programme obligatoire pour tous les étudiants en médecine en France, d’ailleurs nulle part, aux États-Unis, il n’y en a pas non plus.
La fac où je suis est la première à avoir créé un département d’IA en santé. Donc, on a un DU d’IA en santé, qui, d’ailleurs s’adresse aux ingénieurs, chercheurs, pharmaciens, etc., mais ce n’est pas une formation obligatoire, c’est sur la base du volontariat. Il y a beaucoup moins de places que de personnes qui souhaiteraient participer.
Donc, clairement, il y a un problème sur la formation des médecins.
Ce qui est certain, c’est que les médecins les plus jeunes, qui vont sortir dans 10, 11 ou 12 ans, vont être entourés d’un monde dans lequel ils vont utiliser des outils d’IA, c’est absolument certain, mais, si on ne les forme pas, ils ne vont avoir aucune idée de la façon dont ça fonctionne et, potentiellement, ils vont mal s’en servir ou ne vont pas se servir des bons outils. Je pense qu’il y a un gros enjeu sur la formation, au moins à un niveau basal, des étudiants en médecine, c’est sûr. Les doyens de médecine des facs sont en train d’y réfléchir, mais ça prend beaucoup de temps.
Public : Bonjour. Quant à la redéfinition du rôle que peuvent avoir les médecins, existe-t-il un risque de perte de connaissances, notamment pour les diagnostics : un jour, les médecins ne sauront plus faire de diagnostic. Qu’en pense-t-on aujourd’hui dans la communauté médicale ?
Jean-Emmanuel Bibault : Il y a clairement un risque de perte de compétences, on en parlait juste avant.
Je vous donne l’exemple de la radiothérapie, c’est ma spécialité plus spécifiquement clinique. En fait, avant de faire de la radiothérapie, on envoie des rayons x sur les tumeurs pour les détruire, on fait un scanner des patients et, ensuite, on va dessiner en 3D, sur ordinateur, le cancer qu’on va chercher à cibler et les organes qui sont autour pour ne pas les abîmer. Cette étape-là était faite manuellement et était importante parce qu’il fallait bien connaître l’anatomie, très bien connaître l’anatomie pour le faire bien. En fait, maintenant, on a des algos de deep learning qui font ce contourage automatiquement, en deux à trois minutes, alors que ça nous prend deux/trois heures.
Le problème, c’est que dans les CHU où les internes se forment, si on a des algorithmes qui font déjà ça automatiquement, les internes n’auront plus besoin de le faire, donc ne vont même pas apprendre à le faire et, à la fin, ils ne vont plus savoir le faire du tout et ils n’auront même plus la capacité de vérifier que ce qu’a fait l’algo est correct ou pas. C’est là aussi où il y a un gros souci. On réfléchit à avoir des cas réguliers où il n’y a aucune intervention de la machine et où les internes et les médecins doivent tout faire manuellement, un peu comme les pilotes de ligne. Vous savez qu’une grosse partie de ce que font les pilotes de ligne est automatisée. Ils font de la simulation où, en gros, il n’y a rien, en tout cas, ils ont accès à beaucoup moins d’automatismes pour voir s’ils sont toujours capables de faire leur métier.
Je pense que ça va être pareil pour les médecins. Il va falloir réfléchir : comment faire pour être certain qu’on n’oublie pas ce qu’on fait ; il y a un énorme risque, c’est clair et net.
Public : Bonjour. Merci beaucoup pour votre présentation, c’était très intéressant. Est-ce que les compagnies d’assurance financent ces recherches ?, parce que j’imagine qu’elles sont très intéressées.
Jean-Emmanuel Bibault : À ma connaissance non. En complément de réponse, dans l’IA Act [12] de la Commission européenne, qui arrive, qui est passé, l’utilisation de modèles d’IA, par exemple par des assurances pour faire des prédictions, etc., un peu sur ce que je vous ai montré, théoriquement devrait être interdit. On peut espérer que ce soit respecté, donc voilà.
Présentatrice : Merci beaucoup.
Jean-Emmanuel Bibault : Merci.
[Applaudissements]