Diverses voix off : Ah les données personnelles ! Elles volent partout, tout autour de nous.
On pourrait avoir tendance à réduire l’enjeu de la clinique des données à un enjeu de technique et scientifique. En fait, ce n’est pas du tout comme ça qu’on l’a construite, parce que c’est d’abord un enjeu de gouvernance.
Bonjour. Bienvenue au Parlement européen, à Bruxelles, pour un nouveau numéro d’Europe Hebdo. C’est une petite révolution. Vendredi entre en vigueur le RGPD, le Règlement général pour la protection des données, texte européen pour mieux protéger nos données numériques.
Et pour moi, tu vois, c’est un peu le serment d’Hippocrate qui résonne jusque dans nos pratiques digitales.
Bienvenue sur Déclics responsables, le podcast qui éveille les consciences sur les impacts du numérique, qu’ils soient environnementaux, sociaux, sanitaires ou encore éthiques, et valorise les réflexions et alternatives qui permettent d’imaginer et de réaliser un monde numérique plus juste et durable.
Voix off : Déclics responsables
Perrine Tanguy : Salut et bienvenue à toi dans ce quarantième épisode, partie une, du podcast Déclics responsables.
Après une longue pause de quelques mois pour des raisons personnelles, Tiphaine et moi-même reprenons du service avec un nouvel épisode qui aborde le sujet tant discuté des données personnelles et, plus particulièrement, nos données médicales. Mais, avant de rentrer dans le vif du sujet, cher auditeur, une question pour toi : est-ce que la CNIL[Commission nationale de l’informatique et des libertés] [1] t’est familière ? Ou le RGPD [Règlement général sur la protection des données] [2] peut-être ?
Très rapidement, puisqu’il en sera question dans l’épisode, la CNIL, c’est la Commission nationale de l’informatique et des libertés. C’est une autorité administrative, indépendante, française, qui a pour mission de veiller à la protection des données personnelles contenues dans les fichiers et traitements informatiques ou papiers, aussi bien publics que privés. Pour reprendre les mots de la CNIL, cette dernière est chargée de veiller à ce que l’informatique soit au service du citoyen et qu’elle ne porte atteinte ni à l’identité humaine, ni aux droits de l’homme, ni à la vie privée, ni aux libertés individuelles ou publiques. C’est elle qui s’assure donc du respect du Règlement général sur la protection des données, le fameux RGPD, un règlement publié par les instances de l’Union européenne en 2016, relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données.
Typhaine Brigand de Poret : Il y a un an, j’ai eu un accident de vélo. Bon, les circonstances atténuantes n’ont pas d’importance ici. Ce que je veux vous raconter, c’est ce qui s’était passé une fois que les ambulanciers m’ont déposée au CHU de Nantes.
La première chose, c’est qu’on m’a demandé tout un tas d’informations sur qui j’étais, mon état actuel, mes antécédents, et on m’a auscultée. Comme ma cheville était très douloureuse et que je n’arrivais pas à marcher, il a été recommandé que je fasse une radio. En attendant mon tour pour la radio, une infirmière est venue me voir pour me dire que j’étais une candidate parfaite pour une étude sur la douleur qu’elle effectuait. Sachant que j’en avais sûrement pour longtemps à attendre, je me suis dit « autant en profiter pour contribuer à la science ». Je suis donc transportée dans une autre pièce. Avant de lancer l’étude, l’infirmière et des internes me font signer une décharge, puis me posent plein de questions qu’elles notent assidûment sur leur ordinateur. Elles me branchent à un moniteur puis lancent l’expérience. Tout du long, elles prennent des notes sur l’évolution de mon état. S’en finit enfin l’expérience, on m’emmène faire la radio. Il s’avère que j’ai eu une entorse, rien d’alarmant, mais je repars avec des béquilles. Avant de partir, je passe tout de même par l’accueil afin de signer de la paperasse et c’est alors que je vois écrit un paragraphe concernant mes données médicales. Cela m’a fait adopter une autre perception de mon expérience hospitalière et je réalise enfin, qu’à travers mon temps aux urgences, j’ai laissé derrière moi de nombreuses informations personnelles et sensibles.
Au regard de cette expérience, avec Perrine nous avons voulu en savoir plus et nousavons donc rencontré Pierre-Antoine Gourraud, un spécialiste du sujet.
On a commencé par lui demander de se présenter.
Pierre-Antoine Gourraud : Je suis un enseignant-chercheur à la faculté de médecine de Nantes Université, j’enseigne la biologie cellulaire, les fondements de l’étude du vivant grâce à la bio-informatique, en particulier à nos futurs étudiants en santé. Je suis également un praticien hospitalier d’un genre un peu particulier, un peu de nouveau, d’abord parce que je ne soigne pas de patients, je ne consulte pas, d’ailleurs je ne suis pas médecin, mais je m’occupe de leurs données. Ça fait donc beaucoup d’interactions autour du traitement des données sensibles, comme le sont les données de santé, et aussi extrêmement complexes, comme le sont les données biologiques, biomédicales. C’est à ce titre que j’ai créé la clinique des données du CHU de Nantes [3], un nouveau service, comme un service médical classique, mais qui prend soin, comme son nom l’indique, des données.
Typhaine Brigand de Poret : On a voulu en savoir un peu plus sur sa formation pour comprendre comment il a été amené à travailler dans ce qu’il appelle la bio-informatique.
Pierre-Antoine Gourraud : Je suis plutôt un généticien épidémiologiste de formation.
Généticien, c’est l’étude de l’hérédité, des polymorphismes qui font la diversité et la stabilité du vivant en général.
Épidémiologiste, c’est plutôt l’abord populationnel qu’on a peut-être un peu redécouvert avec la Covid..
Quand je faisais mes études, j’étais particulièrement intéressé par l’informatique, les biostatistiques, c’est-à-dire le traitement de l’information en grand nombre. C’est un domaine de la génésique où, à la fin des années 90, on a des bases de données de plusieurs dizaines, centaines de milliers de personnes, avec une application en santé qui m’a toujours beaucoup passionné. J’ai donc plongé dans la génétique épidémiologique, dans la génésique de l’immunologie et toutes ses conséquences en santé, et c’est sur cette base-là, sur cette formation, que je me suis intéressé de manière plus globale à l’impact de l’informatique médicale et au traitement des données de santé.
Typhaine Brigand de Poret : Avant de parler d’informatique médicale et de traitement des données de santé, nous avons demandé à Pierre-Antoine ce qui se cache derrière les données de santé. Est-ce uniquement une information concernant le patient, comme pour moi quand je suis allée aux urgences, ou est-ce qu’il y a d’autres choses qui sont englobées dans ce terme ?
Pierre-Antoine Gourraud : Je peux même te donner une définition officielle, telle qu’elle est présentée notamment par la Commission nationale informatique et libertés, la CNIL. Ce sont des données à caractère personnel, donc ça concerne un individu vivant, et, quand ce sont des données personnelles de santé, ça concerne évidemment la santé. C’est donc relatif à la santé physique, mais aussi mentale, passée, présente ou future d’une personne, c’est-à-dire un sujet de droit et c’est une personne qui fait l’objet de prestations de services dans le domaine de soins de la santé. Les données, les enregistrements qui sont faits à propos de cette personne, révèlent des informations à propos de son état de santé. Et encore, c’est la santé au sens le plus large possible, pas simplement l’absence de handicap physique, mais son état de bien-être physique ou moral.
Ça concerne donc la personne physique en elle-même, mais ça concerne également les produits du corps humain, évidemment, on va penser au don du sang, à une transfusion, et ça concerne aussi globalement les maladies. Et si on voulait aller un petit peu plus loin, je vous renvoie à notre documentation, on peut faire en sorte que des données, des enregistrements, notamment informatiques, deviennent des données personnelles de santé par croisement, parce qu’on va en utiliser plusieurs, par destination, par utilisation, au-delà peut-être des données personnelles de santé auxquelles on pense par nature, puisqu’elles sont enregistrées souvent dans le cadre d’un établissement de soins.
Typhaine Brigand de Poret : OK. Donc, mes données médicales ne concernent pas uniquement ce qui est propre à ma condition, mais prennent en compte aussi tout l’environnement de soins qui m’a accompagné lors de mon accident. Du coup, je me suis demandé si ces données m’appartiennent en tant que patiente ?
Pierre-Antoine Gourraud : Je vais te reprendre sur « mes données médicales ». C’est vrai que nous, en français, nous sommes souvent extrêmement possessifs, on a tendance à s’approprier à peu près tout ce qui nous tombe sous la main, donc ça s’applique à nos données médicales et tu dis, justement, comme on le fait souvent, « nos données », « mes données », et peut-être que c’est une notion un petit peu plus large à laquelle il faut se référer.
Plus que des données que, d’ailleurs, tu ne possèdes pas vraiment comme tu possèdes peut-être une voiture, un téléphone ou un ordinateur, en fait, ce sont surtout des données qui te concernent. L’expression qui serait plus juste serait de dire « mes données de santé me concernent ». Oui, évidemment, elles te concernent. Au passage, elles concernent aussi les soignants qui ont contribué à les produire, ils sont finalement coauteurs des données de santé qui te concernent.
Dans le cas qui nous anime, un certain nombre de droits sont liés au fait que ces données touchent à ton intimité, touchent à ta personne.
C’est évidemment d’abord un droit d’accès, le droit d’avoir accès aux données qui sont collectées à propos de nous par un établissement de santé, par des professionnels. Et puis, dans ce qui va nous occuper aujourd’hui, c’est-à-dire les utilisations, les usages secondaires que l’on peut faire de ces données, il y a aussi un droit d’opposition. Chacun d’entre nous, sans qu’on ait à se justifier, peut se retourner vers un établissement comme le CHU de Nantes et exercer son droit d’opposition à ce que des données qui le concerne – « ses données » entre guillemets – soient utilisées à des fins de recherche. Par exemple, si vous le souhaitez, si vos auditeurs souhaitent le faire, je les encourage à écrire à vos donneespersonnelles chez chu-Nantes.fr et, sans que vous ayez à vous justifier, nous retirerons vos données, les données qui vous concernent, de tout projet de recherche qui pourrait être amené à les mobiliser.
Typhaine Brigand de Poret : Les données ne sont peut-être pas les miennes, mais elles me concernent. J’ai donc bien des droits les concernant. Bon, après, c’est pour la bonne cause vu qu’elles vont être utilisées pour la recherche médicale.
Avec Perrine, nous avons ensuite demandé à Pierre-Antoine où vont ces données une fois collectées, et comment elles sont prises en charge et utilisées.
Pierre-Antoine Gourraud : La clinique des données, en fait, c’est ce qu’on appelle dans d’autres établissements un centre de données cliniques ; c’est surtout et d’abord pensé autour de ce qu’on appelle un entrepôt de données de santé. Un entrepôt de données de santé, ce sont des données qui ont été collectées dans différents cadres et que l’on voudrait pouvoir réutiliser dans un cadre, pour des questions qui n’ont pas été vraiment prévues au moment de leur collecte. D’habitude, dans les projets de recherche, il y a ce qu’on appelle un consentement à participer à une recherche avec un objectif particulier et des réutilisations qui sont prévues.
Dans le cas des entrepôts de données de santé, on a pris conscience du potentiel de ces données, de ces échantillons, et on va dire : on a l’intention, mais on ne sait pas encore très bien pourquoi, de réutiliser ces données de manière secondaire pour aider d’autres patients, pour faire progresser la recherche, et c’est un principe de non-opposition qui s’applique. C’est pour cela que, dès l’introduction, j’ai insisté sur le fait que, pour des finalités de recherche, vous avez bien entendu la possibilité, sans vous justifier, de vous opposer à ce que vos données soient utilisées de cette sorte.
Mais dès qu’on parle de ces entrepôts de données de santé, qu’on parle d’intelligence artificielle, d’algorithmes, de données qui sont présentes en grand nombre, peut-être pour donner quelques chiffres : aujourd’hui, au CHU de Nantes, ce sont les données de plus de 2,5 millions de patients qui sont rassemblées. C’est colossal. C’est plus de 600 millions de données structurées. Une donnée structurée, c’est un enregistrement, souvent un chiffre ou une caractéristique des patients, qui est enregistrée dans le cadre du soin – on peut penser au poids des patients, à leur taille, à leur taux de glycémie, à leur taux de cholestérol, avec tous les différents types de glycémie ou de cholestérol qui existent.
Il y a des données qui sont moins structurées, on les appelle parfois non structurées. C’est par exemple le texte qui est produit à l’occasion du soin qui est prodigué au patient. Ça peut être les comptes-rendus médicaux d’opérations, ça peut être les lettres qui sont adressées entre praticiens, vous savez « cher collègue, je vous remercie de m’avoir adressé Perrine T. en consultation. Je la reçois aujourd’hui pour la deuxième fois après blablabla », eh bien, ces textes-là deviennent nouvellement disponibles pour pouvoir chercher de nouvelles informations. Au CHU de Nantes, ce sont plus de 78 millions de documents textuels qui deviennent accessibles à une réanalyse ; 78 millions de données textuelles, si on veut se représenter peut-être mieux ce que ce que ça veut dire, si on les imprimait, si on les empilait comme des ramettes de papier à la photocopieuse, on traverserait Paris de part en part. Et en quelques centaines de millisecondes, avec des algorithmes et des logiciels, on va aller chercher des mots, des croisements de mots pour répondre à de nouvelles questions.
Le risque, c’est que quand on s’emballe, comme je le fais, sur ces nouvelles possibilités, ces utilisations scientifiques, ces algorithmes, ces choses absolument fascinantes, on pourrait avoir tendance à réduire l’enjeu de la clinique des données à un enjeu de technique et scientifique. En fait, ce n’est pas du tout comme ça qu’on l’a construite, parce que c’est d’abord un enjeu de gouvernance. C’est un bien grand mot pour parler, finalement, de la façon dont on organise, à l’intérieur de l’établissement, l’exploitation de ces données.
Pour bien comprendre comment on a réfléchi, il faut revenir à ce qu’on a déjà commencé à dire, c’est que, finalement, ce ne sont pas tellement les données du patient, mais ce ne sont pas plus les données du chirurgien qui a fait l’opération ou de l’anesthésiste qui a endormi le patient ou du biologiste qui a fait l’analyse de sang. On s’aperçoit très vite que ces données sont produites par différents acteurs, qu’elles concernent des patients, mais qu’elles concernent aussi l’activité professionnelle de différents praticiens, experts dans le domaine de la santé.
On parle parfois de producteurs de données de santé, et je trouve que le mot est à la fois bien choisi, mais qu’il prête aussi à confusion.
Si on pense à « production » comme on produirait un bien manufacturé, des voitures ou des téléphones, on peut complètement se planter.
Par contre, si on pense « production » dans le sens « artistique », on est beaucoup plus proche de la réalité. Finalement, on produit des données de santé comme on produit un opéra, une symphonie ou une pièce de théâtre. Pourquoi ? Parce que dans un bien culturel, ce qui est produit relève de la contribution multiple de plusieurs experts. Pour faire un opéra, il faut une partition de musique, mais il faut plein d’interprètes, il faut des acteurs. Il est créé dans un lieu, dans un contexte, à un moment donné, c’est pour cela que vous avez un metteur en scène ; vous avez aussi des gens qui ont un métier technique : faire les décors, préparer la prise de son et, éventuellement, de diffuser ce son.
Donc, quand on parle de production des données de santé, finalement, c’est bien une image culturelle : on produit des données de santé comme on produit un opéra. Donc, cela exige une gouvernance à l’intérieur de l’établissement de santé.
Les données sont sous la responsabilité de l’établissement, le CHU de Nantes, en l’occurrence.
Elles sont confiées à un service, mais ce ne sont pas les données du professeur Gourraud, ce sont les données de la communauté hospitalo-universitaire. J’en ai la charge devant cette communauté, je lui rends des comptes, donc on a mis en place toute une gouvernance qui permet d’accéder à ces données et qui permet d’informer ceux qui y ont contribué, les patients en premier lieu ; de respecter le droit à la confidentialité parce que, effectivement, il n’est pas nécessairement éthique ou justifié d’avoir accès à l’ensemble de ces données. Cela est réalisé par une équipe finalement assez réduite, il n’y a que huit personnes au CHU de Nantes qui ont été spécialement formées et qui, pour un usage bien défini à l’avance, vont aller essayer de mettre en face d’une question des données.
Ça, c’est le premier niveau, c’est la gouvernance.
Il y en a un deuxième qu’on a déjà un petit peu évoqué, c’est le déploiement légal, c’est comment on respecte le droit à l’opposition des patients et puis, c’est aussi d’avoir déclaré tout notre fonctionnement à l’avance auprès d’une autorité indépendante qui s’appelle la CNIL, la Commission nationale informatique et libertés, qui a pour responsabilité d’autoriser, ou non, le fonctionnement de ces entrepôts de données de santé. On a donc expliqué à la CNIL, en 2017, « voilà comment on voudrait fonctionner. Est-ce que ça vous semble raisonnable ? ». On a fait un excellent travail avec les services juridiques de la CNIL qui nous ont approuvé le 17 juillet 2018, je crois qu’on va bientôt fêter déjà nos cinq ans ; il y a cinq ans, c’était le début des choses.
Typhaine Brigand de Poret : Pierre-Antoine nous parle de mise en place de processus et d’une véritable gouvernance, mais tout ceci doit reposer sur une infrastructure technique. On a donc voulu savoir comment elle a été construite et quels sont les choix qui ont été effectués pour pouvoir sécuriser et traiter les données médicales.
Pierre-Antoine Gourraud : C’est une très bonne question et cette troisième étape, ce troisième niveau à la clinique des données, sur l’entrepôt de données, est bien un niveau technique. Très souvent, on commence par ça, mais, à mon avis, un peu à tort. D’abord la gouvernance, d’abord le légal et effectivement, à un moment, s’est posée la question de savoir quels étaient les moyens que le CHU de Nantes mettait à disposition de cet entrepôt de données de santé. On n’a pas forcément beaucoup de moyens informatiques, on les met donc de manière parcimonieuse.
Le CHU de Nantes ainsi que l’ensemble du Ouest Datahub, c’est-à-dire le réseau des entrepôts de données de santé de tous les au CHU et centres de lutte contre le cancer dans le grand ouest, depuis Brest jusqu’à Tour, en particulier avec nos collègues de Rennes, nous avons fait le choix d’héberger nos machines chez nous. Donc, on ne confie pas à un prestataire de cloud les données qui concernent nos patients, qu’il soit extérieur mais souverain ou qu’il fasse partie des grands fournisseurs de services informatiques sur le cloud, notamment les GAFAM. C’est donc un choix qui n’est pas que technique, c’est aussi une question de garantie, de confiance que nous font les patients.
Aujourd’hui, on est aussi amené à utiliser certains logiciels, certains modèles, en particulier des modèles de langue avec des serveurs cloud. Jusqu’à présent, nous avons toujours fait le choix de services qui sont souverains donc européens, qui sont conformes à la doctrine « cloud au centre » qui, depuis, a été émise par les services de l’État, et puis on a une infrastructure, c’est vrai au CHU Nantes, mais c’est vrai aussi pour nos prestataires, qui est hébergeur de données de santé [4]. C’est quelque chose de très important.
Je crois, avant tout et avant les enjeux techniques, c’est bien la confiance que les patients nous font qui est au centre de nos usages.
Typhaine Brigand de Poret : Quand on parle de data, souvent on en vient à parler d’IA. On a donc voulu savoir quel lien fait Pierre-Antoine entre ces deux sujets.
Pierre-Antoine Gourraud : Vous avez bien compris que si on a une clinique des données, c’est parce que les données sont plus importantes que les algorithmes, fussent-ils d’intelligence artificielle. C’est vrai qu’aujourd’hui on parle beaucoup d’intelligence artificielle, on parle beaucoup d’algorithmes.
Si vous me permettez une métaphore qui est culinaire, c’est formidable de parler des recettes, mais il ne faut pas oublier de parler de la qualité des ingrédients. Dans l’intelligence artificielle, les algorithmes sont les recettes et les données sont les ingrédients. La clinique des données prend soin des ingrédients, elle les bichonne, elle les nettoie, elle les transforme pour qu’ils soient bien utilisés par les algorithmes.
Ce qui est intéressant, c’est que ce sont des usages secondaires, c’est-à-dire des usages qui n’ont pas vraiment été anticipés au moment de l’enregistrement de la donnée. La donnée de soin est enregistrée pour le soin, elle est même payée par le soin. Il n’y a aucune légitimité à l’enregistrer, à la transformer, voire à demander des informations supplémentaires auprès des patients, parce que peut-être un jour on en fera de la recherche. C’est un protocole de recherche, ça fonctionne aussi très bien et ça peut alimenter des entrepôts de données de santé. Dans un d’entrepôt de données de santé issues du soin, la donnée existe, elle est là par rapport au soin.
Au fil des années, ça nous a quand même amenés à créer une matrice de gouvernance des données. Ce qui est intéressant dans cette matrice, c’est qu’elle est relativement simple et ça aide à comprendre pourquoi notre activité va au-delà du simple – simple, c’est relatif – entrepôt de données du CHU de Nantes. Pourquoi ? On va croiser deux critères.
Le premier, c’est l’intentionnalité des données. C’est un peu France Culture, l’intentionnalité des données, ça veut dire à quoi on pensait qu’elles allaient servir au moment où on les a enregistrées. Et nous, on va regarder en particulier l’intentionnalité vis-à-vis de la recherche. Les données de soin sont des données issues du soin, pour le soin, donc elles n’ont pas une intentionnalité de recherche. Quand on a, dans un hôpital, des cohortes de patients pour la recherche ou qu’on fait des essais cliniques, on va enregistrer des données pour la recherche, donc ces données sont faites pour la recherche. C’est le premier critère : est-ce que les données ont été enregistrées dans un but d’être réutilisées à des fins de recherche ?
Puis l’autre critère, c’est qui en est responsable ? Dans les données de soins, la responsabilité du soin qui est délivré par le CHU de Nantes, pour des patients du CHU de Nantes, c’est celle de l’établissement, donc de son directeur général, monsieur El Saïr, que l’on va saluer au passage.
Quand ce sont des projets de recherche qui sont menés par le CHU de Nantes, que ce sont des patients du CHU de Nantes, il y a bien une intentionnalité recherche, mais la responsabilité du promoteur de la recherche clinique incombe à l’établissement également. Mais il y a aussi plein de données qui ne sont pas dans le périmètre de l’établissement. Je donne deux exemples : un avec intentionnalité recherche et l’autre sans.
On est, en France, dans un pays extraordinaire qui a le système national des données de santé. Chaque acte de soin, sur le territoire national, est pris en charge et remboursé par la Sécurité sociale. Cet acte de remboursement des données du soin fait l’objet d’une trace de données qui est centralisable, donc centralisée, et on a une base de données nationale qui rend compte des 1,3 milliard d’actes de soin, de feuilles de prescription, qui sont réalisés chaque année, on a donc une capacité à suivre ces actes de soin. C’est à la fois extraordinaire comme source de données et, en même temps, un peu décevant.
Extraordinaire parce qu’on en a sur tout le territoire national, qu’elles sont codées de manière uniforme.
Et un peu décevant parce que, comme ce sont des données pour le remboursement de l’acte de soins, elles n’ont peut-être pas la finesse clinique des données qu’on pourrait imaginer.
En attendant, ce sont des données qui sont disponibles, pour lesquelles on fait un certain nombre d’études. On va publier, avec mon excellent collègue le professeur Antoine Roquilly, une publication dans Nature Immunology, parmi les plus grandes revues scientifiques. Ce que j’aime beaucoup dans cette publication, c’est qu’on a fait le pont entre l’excellence du professeur Roquilly en immunologie, avec des études sur des populations de lymphocytes qui demeurent chez les patients à l’issue d’un passage en réanimation ou d’une infection, et une analyse en population. Et c’est parce qu’on a fait l’analyse en population, donc de patients qu’on a suivi pendant cinq ans, des patients qui avaient eu une infection, en faisant des hypothèses sur peut-être ce qui se passait dans leur immunologie, eh bien ces patients, qui ont fait une infection, vont avoir moins de risques pour certains cancers. Cette observation, qu’on a faite sur la population, on l’a démontrée dans des expériences d’immunologie extrêmement poussées, en particulier chez l’animal, c’est donc un pont entre des analyses de données à l’échelle de la population nationale et des analyses que l’on fait dans le tube à essai, de manière très moléculaire, avec des populations de lymphocytes, et c’est absolument passionnant. Je suis particulièrement ravi de ce travail qui va enfin sortir.
On en a d’autres. On a aussi analysé, par exemple, les patients auxquels on met certains types de stents, ces petits ressorts pour faciliter la circulation, notamment dans les artères. Il y a différents types de ces stents, de ces ressorts, certains ont des propriétés pharmacologiques différentes. On peut regarder quelles sont les conséquences chez les patients à quatre ans, à cinq ans, voire à dix ans à travers ces données du système national de santé.
La mission de la clinique des données, les 203 projets qu’elle a pris en charge en 2023, les plus de 40 publications auxquelles elle a contribué, c’est vraiment, face à une question portée par des collègues instigateurs, de mettre les bonnes données en face, parfois, ce sont des données de l’entrepôt de données du CHU de Nantes, parfois ce sont des données du système national des données de santé, parfois on fait de la réutilisation de ressources de recherche, soit celles de l’établissement soit celles qui sont disponibles au niveau national ou international. Dans ma carrière, j’ai eu la chance de participer au projet qu’on appelle 1 000 Genomes. J’ai contribué à une partie de ces données. C’est une cohorte de données qui sont faites pour la recherche, internationalement, qui ont déjà été réutilisées des centaines et des centaines de fois.
C’est donc bien d’une clinique des données dont on a besoin et pas d’un service d’intelligence artificielle. Les données sont la matière brute, les ingrédients pour les transformations du soin que l’on pourra envisager grâce à l’intelligence artificielle.
Typhaine Brigand de Poret : En bref les données, et surtout les données de qualité, sont essentielles pour accompagner la transformation du monde médical. Mais qui dit données, d’autant plus données médicales, donc données sensibles, dit aussi risque de piratage, ce qui peut entraîner des conséquences désastreuses.
Voix off : En quelques années, 23AndMe est devenu le leader des tests génétiques. Cette société a été créée avec le concours de Sergueï Brin, cofondateur de Google. Côté consommateur, le produit a fait fureur. Pour une somme modique, on reçoit une multitude d’informations médicales issues de son génome, par exemple sa probabilité de contracter telle ou telle maladie héréditaire, ceci sans jamais avoir besoin de consulter un médecin. Et 23AndMe peut disposer de cette manne de données librement concédées.
Au moins 14 000 personnes se sont fait hacker leurs tests ADN. C’est ce que révèle le site américain d’analyses ADN, 23AndMe, dans un rapport publié vendredi 1er décembre. En réalité, les profils ADN contiennent des détails super sensibles, comme l’ascendance, évidemment, mais aussi, par exemple, les potentielles maladies qui peuvent toucher un client.
Typhaine Brigand de Poret : On a donc voulu savoir comment il était possible de minimiser ce type de risque.
Pierre-Antoine Gourraud : Une fois qu’on a parlé de données, une fois qu’on a parlé des applications, le deuxième effet Kiss Cool, comme on disait parfois, c’est que c’est aussi un champ pour lequel les innovations sont extrêmement nombreuses. On a fait plein d’expérimentations sur différentes approches, différentes manières de traiter les données et parmi celles-ci, il y en a une qui nous a beaucoup occupés, beaucoup interrogés. On a beaucoup réfléchi avec notre gouvernance, la mise en conformité légale de l’entrepôt, on peut s’apercevoir qu’aujourd’hui – c’est vrai en santé, mais c’est vrai de manière encore plus large et peut-être encore plus grave en dehors de la santé – on utilise quand même beaucoup de données personnelles. On utilise les données des patients du CHU de Nantes. On a respecté leur volonté d’opposition si celle-ci est exprimée, mais, malgré tout, on utilise des données personnelles dans un but qui, lui, est rarement personnel. Le patient dont j’utilise les données ne bénéficie pas directement même de la plus grande des publications que nous faisons à propos de l’immunologie ou des ressorts dans les artères. Cela nous a beaucoup interrogés et, depuis quasiment cinq ans maintenant, on travaille avec une société nantaise, Octopize, qui commercialise une méthode pour faire des données synthétiques anonymes. Ces données synthétiques anonymes sont, en fait, des données qui sont simulées mathématiquement et qui sont suffisamment proches des données réelles pour qu’elles ne perdent pas leur valeur statistique, mais pas suffisamment proches, ou suffisamment éloignées de l’individu d’origine, pour que ce ne soit plus considéré comme des données personnelles. On sort donc du RGPD. Et quelque part cette technologie, la publication qu’on a faite à propos de cette technologie, les utilisations qui se multiplient de ces données synthétiques, peut-être qu’elles illustre très bien ce que profondément nous dit le Règlement général de la protection des données, le fameux RGPD qu’on voit toujours comme une contrainte parce qu’on l’a en Europe et qu’ils l’ont moins aux États-Unis, etc. En fait, c’est bien de mettre l’utilisation des données au centre du jeu et peut-être même son principe de minimisation.
Donc, la question qui nous est posée, qui est une question éthique, c’est : est-ce que j’ai besoin de faire courir un risque de ré-identification en manipulant des données pour faire de la recherche ou pour faire une nouvelle découverte ? Probablement que non. Dans nos pratiques numériques, un des gros enjeux, comme peut-être dans le reste de nos pratiques, c’est de chasser les excès, les « trop de ». Il y a peut-être trop de données personnelles qui se baladent, qu’on utilise, alors qu’on va en faire juste une analyse. La publication scientifique, qu’on a publiée au mois de mars 2023 dans la revue Digital Medicine – Nature, dit qu’on a cette méthode de génération de données synthétiques anonymes et dit tout simplement qu’il n’y a plus de raison, pour une simple analyse statistique biomédicale, de faire courir un risque de ré-identification aux patients.
Pour moi, c’est un peu le serment d’Hippocrate qui résonne jusque dans nos pratiques digitales. Quand mes étudiants en médecine prononce le serment d’Hippocrate, j’y pense toujours quand ils disent « admis dans l’intimité des foyers, je tairai les secrets qui me seront confiés », c’est une question qu’on doit se poser dans toutes nos pratiques. Est-ce que, pour la recherche, j’ai un enjeu, ? Maintenant, on dispose d’une technologie qui permet de le faire : ce sont des données simulées, non personnelles, vraiment anonymes. D’habitude, on croit que anonyme, c’est juste enlever les noms et prénoms, mais ce n’est pas vrai. Même sans nom, sans identifiant direct, les données font courir un risque de ré-identification. Il n’y a pas de raison. Quand on a des données anonymes, il faut le prouver. Donc, avec cette méthode de données synthétiques anonymes, Octopize parle d’avatars, on a la capacité de créer des données à haute valeur ajoutée, sans faire courir de risques de ré-identification aux patients. Et ça change tout. En particulier, nous utilisons ça beaucoup pour faire de l’open data et transmettre à nos collègues des données qui sont extrêmement vraisemblables, extrêmement utiles, et favoriser nos échanges.
Je crois que le 21e siècle est le siècle de la connaissance, de l’échange de données, oui, sous format numérique, mais pas au détriment du respect à la vie privée qui est dû à chacun d’entre nous.
Perrine Tanguy : On espère que cette première partie d’épisode t’a plu et t’a éclairé sur les enjeux de protection de nos données médicales. Comme Pierre-Antoine le précise dans son interview, il est primordial de savoir organiser les données, de garantir leur qualité et leur sécurité avant même de penser à les manipuler, en bref !, prendre soin de nos données. Mais cette leçon ne s’applique pas uniquement au monde de la santé, elle concerne vraiment tous les secteurs.
Et puis, cher auditeur, si tu es patient du CHU de Nantes, on te rappelle que tu as le droit de consulter et de demander la suppression de tes données à tout moment.
Rendez-vous bientôt avec une deuxième partie de l’épisode consacrée cette fois à l’IA médicale.
Pour te tenir au courant, n’hésite pas à nous retrouver sur Linkedin sous Tiphaine Brigand et Perrine Tanguy ou sur les pages Linkedin et Instagram de Déclics responsables.
Enfin, si tu as aimé cet épisode, n’hésite pas à le partager et à mettre cinq jolies petites étoiles sur ta plateforme d’écoute.
On te souhaite de passer une très belle journée. À très vite.