Le coronavirus menace-t-il nos données de santé ? Le magazine du week-end

Avertissement

Personne·s Stéphanie Combes Yoann Nabat Jean-Paul Hamon Julie Gacon

Thèmes Institutions Vie privée - données personnelles Divers Recherche

Type d’action Conférence

Sommaire

Description
Transcription

Titre :: Le coronavirus menace-t-il nos données de santé ?
Intervenant·e·s :: Stéphanie Combes - Yoann Nabat - Jean-Paul Hamon - Julie Gacon
Lieu :: Émission Le magazine du week-end - France Culture
Date :: août 2020
Durée :: 38 min 30 [première partie de l’émission]
Écouter ou télécharger le podcast

Site de présentation de l’émission

Licence de la transcription :: Verbatim
Illustration :: Covid-19 - Licence Creative Commons Attribution-ShareAlike 4.0 International
NB :: transcription réalisée par nos soins, fidèle aux propos des intervenant·e·s mais rendant le discours fluide.

Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l’April, qui ne sera en aucun cas tenue responsable de leurs propos.

Logo France Culture

Description

Faut-il s’inquiéter des failles dans la protection de nos données de santé sur internet depuis le début de la crise sanitaire ?

Transcription

Julie Gacon : Bonjour. Ravie de vous retrouver pour Le magazine du week-end. Nous sommes ensemble jusqu’à 13 heures 50 pour discuter de l’actualité ici dans le monde avec nos invités. Bienvenue à tous.
Faut-il attiser ce qui semble être les derniers feux de l’industrie pétrolière ? Alors que les géants du secteur ont perdu des dizaines de milliards de dollars pendant et après la crise sanitaire, il y a ceux qui veulent les aider à sortir de l’ornière, comme Donald Trump. Il y a aussi ceux qui veulent les encourager à en profiter pour rediriger leurs investissements vers les énergies renouvelables. Nous en parlons avec nos invités aux alentours de 13 heures 20.
Pour commencer, on les appelle justement le « pétrole du XXIe siècle », ce sont les données de santé. Et nul besoin de forer en haute mer pour les trouver, les données de santé sont partout. Des chiffres, des textes et des images, informations disparates de plus en plus réunies en de gigantesques bases auxquelles les logiciels d’intelligence artificielle tentent de donner du sens pour mieux connaître et in fine mieux soigner les pathologies.

Ainsi en va-t-il du gigantesque Health Data Hub, l’immense plateforme d’exploitation des données de santé créée en décembre dernier par le ministère de la Santé. Une plateforme qui a choisi le géant américain Microsoft pour héberger ces données et qui, pendant la crise sanitaire, s’est vu confier des prérogatives inédites : le droit de stocker de nouvelles catégories de données médicales, ceci au nom, comme on l’entend souvent, de « l’intérêt général et du bien commun ». Mais jusqu’où est-on prêt à céder ces données intimes ? Le coronavirus a-t-il fait sauter les digues de l’anonymat et de la prudence ?

Nous recevons trois invités pour en débattre dont la directrice de Health Data Hub. Bonjour Stéphanie Combes.
Stéphanie Combes : Bonjour.
Julie Gacon : Merci beaucoup d’être avec nous. C’est donc vous qui dirigez cette plateforme placée sous l’autorité du ministère de la Santé et qui doit centraliser des données de santé françaises à des fins de recherche.

Nous sommes également en ligne avec Jean-Paul Hamon. Bonjour.
Jean-Paul Hamon : Bonjour.
Julie Gacon : Vous êtes médecin généraliste et président d’honneur de la Fédération des médecins de France.

Et nous sommes en studio avec Yoann Nabat. Bonjour.
Yoann Nabat : Bonjour.
Julie Gacon : Vous êtes doctorant en droit pénal et sciences criminelles à l’université de Bordeaux, et vous avez publié en début de semaine un long article sur le site de The Conversation : « Fichiers sanitaires : un destin tracé vers la surveillance généralisée ? ».

Je dirige cette première question vers vous Stéphanie Combes. Vous avez, en plein crise sanitaire, bénéficié d’un arrêté gouvernemental qui élargissait les prérogatives de la plateforme que vous dirigez, le Health Data Hub [1], pour mener des projets de recherche contre le coronavirus. Quel usage en avez-vous fait d’ores et déjà au mois d’août ?
Stéphanie Combes : Merci beaucoup de m’avoir invitée. Effectivement, la plateforme des données de santé a été créée, peut-être pour le rappeler, par la loi organisation et transformation du système de santé du 24 juillet 2019 et elle a vocation, en fait, à permettre des projets d’analyse de données de santé innovants visant l’intérêt général.

Suite à cette loi, un décret d’application, prévu pour la fin du mois d’octobre, doit être pris, et cet arrêté gouvernemental auquel vous faites référence a simplement permis d’accélérer, finalement, la mise en place de cette structure et de ses activités, mais qui étaient bien celles qui étaient prévues initialement, c’est-à-dire permettre la réalisation de tous ces projets de recherche.
Julie Gacon : C’est quand même un arrêté qui vous donne le droit de stocker de nouvelles catégories de données médicales. Lesquelles ?
Stéphanie Combes : C’est un arrêté qui nous permet de stocker des données relatives à l’épidémie, mais qui sont bien comprises dans ce qu’on appelle le Système national des données de santé qui recouvre, finalement, l’ensemble des données de santé reliées à un remboursement de l’assurance maladie, tel que prévu par la loi de juillet 2019.

Ça nous a permis d’accélérer un petit peu notre feuille de route initiale, mais ça n’élargit pas réellement les prérogatives de la plateforme telles qu’elles avaient été imaginées. Ce que nous appelons l’« entrepôt covid », c’est-à-dire la réunion de ces bases relatives à l’épidémie, a bien vocation à faire partie du catalogue beaucoup plus large de la plateforme des données de santé qui lui sera mis en œuvre plutôt en fin d’année.
Julie Gacon : En quelques mots, quels projets avez-vous pu lancer à la faveur de cet arrêté dont on comprend, c’est ce que vous nous dites Stéphanie Combes, qu’il n’a pas non plus créé de nouvelles prérogatives pour cette plateforme ?
Stéphanie Combes : Exactement. Grâce à cet arrêté on a pu réunir des premières données. Les premières données c’était celles des passages aux urgences de Santé publique France qui ont pu être mises à disposition dès la fin du mois d’avril aux équipes du ministère de la Santé pour étudier, notamment, le non-recours aux soins au niveau des urgences pendant la période du confinement. On a, à l’heure actuelle, une dizaine de projets qui sont en cours d’instruction auprès de la CNIL [Commission nationale de l’informatique et des libertés] pour pouvoir étudier différentes facettes de l’épidémie, que ce soit mieux comprendre les profils à risque, décortiquer les parcours de soin ou développer des outils d’aide au diagnostic des malades covid graves, etc. Il faut bien comprendre que cet arrêté nous a permis de recueillir et d’héberger des données pour les mettre à disposition des porteurs de projets, mais que ces porteurs de projets eux, doivent être pleinement autorisés pour pouvoir traiter les données sur la plateforme technologique du Health Data Hub. Ça n’est pas du tout de l’open data, par exemple.
Julie Gacon : On y reviendra. L’arrêté gouvernemental a été attaqué par 14 associations, experts et médecins auprès du Conseil d’État lequel les a retoqués et on reviendra plus longuement sur leurs griefs.

Jean-Paul Hamon, est-ce que les médecins ont été obligés, de bonne ou mauvaise grâce d’ailleurs, de communiquer les données de santé dont ils disposaient et à qui ? C’est-à-dire est-ce que pendant la crise sanitaire vous avez eu cette mission, est-ce que cette mission-là a été renforcée ? Est-ce qu’on vous a demandé de coopérer davantage ?
Jean-Paul Hamon : On a coopéré volontiers avec la caisse d’assurance maladie notamment pour le fameux projet de tracing des patients déclarés positifs. De ce côté-là on n’a pas eu d’états d’âme parce qu’avec la caisse d’assurance maladie on a des relations depuis très longtemps, on sait qu’ils sont tenus au secret médical et on n’a jamais eu de viol de secret médical de la part de la caisse d’assurance maladie. Ce projet de tracing est arrivé tardivement parce qu’on a pensé un peu tard à l’utilité des médecins généralistes dans la gestion de cette crise. Oui, effectivement, on l’a fait avec la caisse d’assurance maladie et le service médical de l’assurance maladie a pris contact avec les patients qui avaient été en contact avec les personnes positives et on se rend compte que ce système-là est efficace, même s’il est largement perfectible.
Julie Gacon : Pour l’instant, il faut rappeler que le Système national des données de santé, qui existe déjà, est une base de données qui rassemble les données de l’assurance maladie, les données qu’on appelle de facturation, ce sont celles qui indiquent quel acte a été pratiqué, quel médicament a été prescrit, à quel tarif, enfin toutes les informations dont a besoin l’assurance maladie.

Yoann Nabat, qu’est-ce qui a été autorisé en plus au nom de la lutte contre l’épidémie qui ne l’était pas jusque-là ?
Yoann Nabat : En réalité ce sont deux traitements de données donc deux fichiers qui ont été mis en place par la loi prolongeant l’état d’urgence, la loi du 11 mai 2020. Ces deux fichiers qui ont été évoqués implicitement par monsieur Hamon : le fichier SI-DEP [Système d’information de dépistage] qui, en fait, contient toutes les données des tests PCR qui sont réalisés, à la fois les tests positifs bien sûr, mais aussi tous les tests négatifs ; les données restent dans le fichier.

Le deuxième traitement de données qui a été créé par cette loi c’est le fichier Contact Covid qui lui comprend les données à la fois du patient 0, c’est-à-dire de celui qui est allé voir son médecin en disant « à priori j’ai des symptômes et j’ai le coronavirus », qui a été déclaré positif, sur lequel on fait ensuite cette fameuse enquête de contact tracing pour essayer de récupérer tous les contacts des individus qu’il a pu croiser, qu’il connaissait donc qu’il est à même de donner.

C’est ce fichier qui est peut-être le plus problématique parce qu’il sera à disposition pas seulement de médecins, pas seulement de professionnels de santé, mais des brigades sanitaires, les fameuses brigades d’anges gardiens qui ont été mises en place, qui sont certes rattachées à la caisse primaire d’assurance maladie, donc ce sont tous des gens qui sont assermentés parce qu’ils travaillent à l’assurance maladie, mais qui, néanmoins, ne sont pas tous des professionnels de santé. Là aussi, où c’est simplement problématique, on nous a dit que ces fichiers ne contenaient que la positivé ou non au coronavirus et les données personnelles. C’est faux parce qu’on trouve dedans aussi par exemple la spécialité du médecin qui a prescrit le test, et la spécialité du médecin peut bien sûr traduire une pathologie que vous avez.
Julie Gacon : Si c’est un oncologue !
Yoann Nabat : Exactement. Si c’est un oncologue, on sait que vous avez un cancer.

C’est évidemment problématique. Il contient aussi le statut du patient, s’il est hospitalisé ou non, les lieux que le patient aurait fréquentés type maison de santé, etc., donc il contient beaucoup de données qui vont au-delà des données qu’on présente habituellement.
Julie Gacon : Stéphanie Combes, comment est-ce qu’on a pu collecter en trois mois des données fiables quand dans chaque CHU, chaque hôpital qui dispose d’un système d’information avec des équipes qui fournissent des données qu’on dit propres, on met déjà beaucoup de temps à le faire, avec des systèmes d’information souvent vieillissants, qui existent depuis 20 ans ? En gros, les informaticiens qui travaillent sur ces données dans les hôpitaux nous disent qu’entre le moment où elles sont collectées et le moment où elles sont récupérées pour être analysées il faut à peu près cinq ans.
Stéphanie Combes : C’est vrai. Dans tous les cas pendant la crise sanitaire on a vu quand même une effervescence des projets autour de la collecte des données et une accélération de leur remontée. Là on a évoqué SI-DEP qui est un système d’information qui a été mis en place par le ministère dans un temps extrêmement court, mais qui n’existait pas auparavant.

On a également le flux qu’on appelle Fast Track SNDS qui est finalement une version un petit peu plus rapide du SNDS [Système National des Données de Santé], qui va remonter les données de facturation hospitalière, le PMSI [Programme de médicalisation des systèmes d’information] ; elles sont codées qui par les médecins DIM [Département d’information médicale], et qui remontent de manière plus rapide pour pouvoir donner une visibilité sur l’activité hospitalière, qui sont ensuite chaînées avec les données de consommation de soins de l’assurance maladie. Et ça c’est pareil, c’est d’ailleurs une partie de l’arrêté que vous avez évoqué qui a permis de mettre en place ce traitement ad hoc, donc une adaptation d’un traitement existant. Ce qu’il faut savoir c’est qu’effectivement, c’est ce que vous dites, si on fait remonter plus rapidement certaines données, ce sera parfois au prix de leur qualité, mais, dans un temps de crise, on a aussi besoin d’avoir des éléments factuels qui remontent à la vitesse de la décision.

Julie Gacon : Comment on fait pour ça ? Quand on parle de manque d’effectifs dans les hôpitaux ? On parle beaucoup des soignants mais les informaticiens ne sont pas en reste et, Jean-Paul Hamon, les canaux de transmission des données pour la médecine de ville ne sont pas très opérants aujourd’hui.
Jean-Paul Hamon : Si vous voulez parler du DMP [Dossier médical partagé] oui, effectivement, ce n’est pas opérant du tout, c’est quelque chose qui traîne depuis maintenant 2004, qui a dû coûter quelque chose comme 500 millions d’euros et actuellement les logiciels métiers, ceux qu’on utilise pour gérer les fichiers des patients dans nos cabinets, ne se connectent pas de façon ergonomique au DMP. Actuellement le DMP a une indexation aléatoire.
Julie Gacon : Le DMP, rappelez-nous.
Jean-Paul Hamon : Le Dossier médical partagé, qui avait été rebaptisé en 2004, le dossier mal parti et ça se confirme. Il n’y a aucune utilisation ergonomique et franchement c’est un sac dans lequel on enfourne des données qui sont inexploitables, car il y a une indexation qui est très mal fichue.
Julie Gacon : Est-ce que ça vous pose problème, Jean-Paul Hamon, ce que Yoann Nabat disait tout à l’heure, qu’aujourd’hui soit transmise la spécialité du médecin qui a ordonné un test de coronavirus ?
Jean-Paul Hamon : Oui. D’ailleurs c’est une révélation parce que, pour moi, il n’y avait que le médecin traitant qui pouvait transmettre la positivité du patient.
Julie Gacon : Apparemment non.
Jean-Paul Hamon : Je l’apprends et ça pose effectivement un problème.

Ceci étant, c’est la caisse d’assurance maladie qui gère et je dois dire qu’en 40 ans d’exercice le service médical de l’assurance maladie n’a jamais été mis en défaut pour trahison de secret médical. Donc j’ai une entière confiance dans la caisse d’assurance maladie dont tous les salariés sont assermentés.
Julie Gacon : Stéphanie Combes, pour que ce soit bien clair, que deviendront les données collectées par le Health Data Hub pendant la crise sanitaire ? C’est-à-dire que la CNIL fixe un cadre d’utilisation des données, notamment leur durée d’utilisation. Est-ce que ça veut dire qu’à un moment vous allez devoir les détruire ?
Stéphanie Combes : Justement on a ces bases qui sont relatives à l’épidémie, que nous appelons entrepôt covid, et on a ce qu’on appelle le catalogue, c’est la collection plus large des entrepôts, qui ne sont pas propres qu’à l’étude de la covid, qui va être copiée et partagée grâce à la plateforme technologique Health Data Hub. L’entrepôt covid a vocation à faire partie de cette collection plus générale de données puisque le texte prend fin au 30 octobre et que, d’ici là, le décret relatif au SDNS qui va permettre d’inscrire l’activité plus large du Health Data Hub dans la pratique sera pris justement pour sécuriser la conservation de ces données. Les travaux de recherche, les travaux épidémiologiques, qui vont permettre de mieux comprendre les parcours de soin, les profils à risque, l’efficacité des traitements, etc., eux ne peuvent pas se conduire en seulement quelques semaines, d’ailleurs, à l’heure actuelle, la plupart des projets sont en cours d’instruction par la CNIL, donc ils ne vont démarrer que dans les prochaines semaines. Donc on va avoir nécessairement besoin de les conserver sur des durées un peu plus longues, des durées qui sont plus proches de la recherche que celles du pilotage.
Julie Gacon : Yoann Nabat.
Yoann Nabat : C’est là où la CNIL montre un peu la précipitation du décret d’avril parce que effectivement, vous l’avez évoqué Stéphanie Combes, il faudra un nouveau décret pour permettre que les données actuellement collectées soient conservées après le 30 octobre. On aurait pu voir les choses de manière un peu plus réfléchie, si on avait pris le temps poser les faits comme le souhaitait la CNIL : le calendrier d’application du Health Data Hub était quand même normalement sur un temps un petit plus long. Là on récolte quand même des données en disant aux patients « on ne va les conserver que trois mois pour vous, six mois anonymisées » et finalement on apprend que non, elles vont rester plus longtemps sur Health Data Hub que c’était prévu au départ. D’un point de vue de consentement, même si on ne consent pas pour ça, mais du point de vue du patient ça me partait problématique.
Julie Gacon : La CNIL qui évoque plusieurs problèmes liés à cette plateforme, Health Data Hub, notamment la question de l’anonymat des données. D’ailleurs, Stéphanie Combes, on ne parle plus d’anonymat, on ne parle plus d’anonymisation mais de pseudonymisation des données. Ça veut dire quoi ?
Stéphanie Combes : Je voudrais revenir une demi-seconde sur le calendrier législatif qui est connu depuis le départ. Effectivement, cela peut porter à confusion qu’il y a ait plusieurs publications de textes, mais le décret SNDS a été prévu dès la publication de la loi en juillet 2019, ce n’est pas un nouveau texte, mais un texte qui était déjà en cours de rédaction, sur lequel il y avait déjà eu des échanges informels avec la CNIL depuis décembre 2019, mais qui a pris un peu de retard du fait des évènements de la crise qui ont beaucoup préoccupé tous les services du ministère et on le comprend bien.

Effectivement, nous on parle de pseudonymisation et pas d’anonymisation parce que l’anonymisation, pour qu’elle soit totale, nécessite d’agréger des données et finalement elle va permettre de faire des comptages qui sont assez génériques, par exemple des comptages de patients, des comptages d’actes, mais elle ne sera pas du tout pertinente pour faire de la recherche à un niveau fin, par exemple de la recherche médicale. On va chercher à mesurer l’efficacité d’une prise en charge, pour cela on va s’intéresser à toute la séquence des évènements médicaux pour un patient donné. Donc les chercheurs n’ont pas besoin de savoir qui est le patient, ils n’ont pas besoin de l’identité du patient, mais ils ont besoin de données qui soient à une granularité très fine, donc à l’échelle des patients. On va avoir des chroniques de parcours de soin pour chaque patient, mais on n’aura pas l’identité de ces patients-là. C’est ça qu’on appelle données pseudonymisées, on enlève les données qu’on appelle directement identifiantes comme le nom, prénom, numéro de sécurité sociale, etc., tout cela est supprimé.
Julie Gacon : Un informaticien de l’Assistance publique – Hôpitaux de Paris, l’AP-HP, m’expliquait par exemple qu’une base de données pseudonymisées, c’est comme une bibliothèque où pour chaque livre on aurait effacé le nom de l’auteur, tout le reste y est. C’est vrai qu’il suffit de connaître un peu Balzac pour reconnaître Balzac, etc. Il suffit de croiser un petit nombre de données pour identifier un patient. En tout cas, la pseudonymisation vous n’y croyez pas Yoann Nabat ?
Yoann Nabat : Ce n’est pas que j’y crois pas. En tout cas, il faut bien avoir conscience qu’une donnée pseudonymisée reste une donnée personnelle, sensible, là il s’agit de données de santé. Il y a plusieurs études qui ont montré que les données pseudonymisées pouvaient être ré-identifiées assez facilement avec quelques éléments seulement. Or là, pour le Health Data Hub, comme on mélange plein de bases de données, par définition on a beaucoup d’éléments sur chaque patient, donc il devient plus facile de ré-identifier. Donc il faut y faire attention à la pseudonymisation.
Julie Gacon : Et ça dépend aussi des « producteurs » de données entre guillemets, Jean-Paul Hamon, des médecins, c’est aussi à eux de faire attention, quand ils envoient un document, de donner le moins possible d’informations sur un patient ? Ou au contraire ça annule les effets bénéfiques d’une telle base de données ?
Jean-Paul Hamon : Je ne regrette pas d’avoir participé à cette émission parce que je suis en train de m’instruire. J’apprends que des médecins autres que les médecins traitants peuvent renseigner la positivité sur le covid. J’apprends que les données de santé qui sont récoltées à cette occasion vont être stockées et prolongées alors que vraiment je pensais ça ne servait qu’au suivi de l’épidémie.
Julie Gacon : C’est vrai que vous étiez assez enthousiaste sur le Health Data Hub, mais vous avez l’impression que vous n’étiez pas assez renseigné ?
Jean-Paul Hamon : Je suis modérément enthousiaste parce que je sais où ces données-là sont hébergés. Maintenant elles vont être hébergées chez Microsoft parce que le gouvernement s’est précipité alors qu’on aurait pu prendre le temps, une année ou deux, voire trois, pour vraiment avoir un stockage au moins européen sinon français.
Julie Gacon : Stéphanie Combes va vous répondre.
Jean-Paul Hamon : Pour au moins avoir des garanties et avoir la garantie sur le devenir de ces données parce que, effectivement, on sait que des données croisées, l’anonymisation est tout à fait relative et on peut retrouver ça.

Mais franchement les médecins sont très sensibilisés à cette histoire d’anonymisation des données et on est effectivement de plus en plus inquiets. Autant j’étais enthousiaste à l’idée de participer au ciblage de cette épidémie et à contenir l’épidémie en identifiant les cas contacts, autant je suis un peu inquiet sur ce que j’entends actuellement.
Julie Gacon : D’ailleurs est-ce que vous savez, Jean-Paul Hamon, on ne parle pas du tout de Microsoft ni du Health Data Hub, mais qu’il y a beaucoup de médecins, je crois, qui utilisent la boîte Gmail et déjà on est dans une problématique ? Quand un patient envoie un mail à un médecin, les données appartiennent quand même à l’entreprise américaine. C’est un livre ouvert. Toutes les grosses entreprises savent qu’elles ne doivent pas utiliser Gmail pour leurs informations sensibles. Est-ce que vous avez une boîte Gmail, Jean-Paul Hamon ?
Jean-Paul Hamon : J’ai une boîte Gmail, mais je ne l’utilise pas et je ne communique par mail avec mes patients que de façon totalement exceptionnelle. J’utilise personnellement une messagerie qui est totalement sécurisée qui s’appelle APICRYPT [2], qui existe depuis 1998 et qui est totalement cryptée. Là-dessus on communique entre médecins et entre biologistes, radiologues, chirurgiens et médecins. Tout ça est intégré directement dans mon dossier patient et je ne communique aucune donnée avec mes patients, on se téléphone, mais on ne communique pas par mail.
Julie Gacon : Stéphanie Combes, Jean-Paul Hamon a évoqué la question de Microsoft. C’est vrai que c’est la question qui fait le plus débat dans la mise en place de cette plateforme Health Data Hub. Comment votre choix s’est porté sur ce géant américain pour l’hébergement des données ? Je rappelle, on ne parle là ni de la collecte ni du traitement mais de l’hébergement des données.
Stéphanie Combes : Je vais vous répondre immédiatement. Je voudrais juste rebondir, je suis désolée, sur la question de la pseudonymisation. Je pense qu’il est très important de faire cette distinction et de la vulgariser, mais il faut bien comprendre que tout le monde a conscience, dans le milieu du traitement de la donnée de santé, de cette distinction, c’est-à-dire que c’est précisément parce que les données sont pseudonymisées et qu’elles sont potentiellement ré-identifiables que le niveau de sécurité requis pour les traiter, la traçabilité, la double authentification, etc., est extrêmement élevé. Ce n’est pas une erreur de jugement entre anonymisation et pseudonymisation. On a conscience qu’on a besoin de données très granulaires pour mener à bien ces recherches et c’est pour cette raison que les conditions de sécurité qui sont mises en place sont très élevées et sont instruites de très près par l’ANSSI [Agence nationale de la sécurité des systèmes d’information], la CNIL, etc. Je reviens sur le choix de Microsoft.
Julie Gacon : Est-ce qu’il y avait urgence à décider d’un hébergeur selon Jean-Paul Hamon ?
Stéphanie Combes : Libre à chacun d’estimer si la recherche en santé est une priorité ou pas. À l’époque j’étais chef de projet au ministère de la Santé et on venait de rendre le rapport de la mission de préfiguration du Health Data Hub à la ministre, à l’époque Agnès Buzyn, mi-octobre 2018 et elle nous a confié la mise en place de cette plateforme, nous demandant d’avoir des premiers résultats pour la fin de l’année 2019 dans un contexte extrêmement concurrentiel sur l’intelligence artificielle et la santé. On voyait déjà, au printemps 2018, des premiers dispositifs médicaux intégrant de l’intelligence artificielle, certifiés, aux États-Unis, donc ça va extrêmement vite, dans des pays aussi où les échanges de données se font parfois de façon plus fluide. Dans ce contexte-là on a analysé les différentes offres technologiques qui existaient par rapport aux besoins du Health Data Hub. On parle évidemment, pour ces besoins, de traitements de données massifs, donc il nous faut des outils technologiques qui soient capables de passer à l’échelle mais aussi un très haut niveau de sécurité, donc une capacité à gérer de manière très fine les accès, les traces, etc., tous les composants. C’est au regard de ces exigences-là et aussi de l’enjeu de vitesse que nous avons considéré les différentes offres disponibles. On a rencontré une dizaine d’industriels en commençant évidemment par les gros industriels français.
Julie Gacon : Qui ne vous ont pas convaincus ?
Stéphanie Combes : Qui n’étaient pas capables de répondre en particulier aux exigences de sécurité. Suite à toutes ces rencontres-là il est apparu qu’il n’y avait que Microsoft, à l’époque, qui pouvait répondre aux besoins de fonctionnalité et de sécurité.

Ce qu’on avait quand même bien en tête c’est, de toute manière, de monter cette plateforme avec le niveau de sécurité exigé quel que soit l’hébergeur qui serait retenu, mais aussi une capacité à être ce qu’on appelle réversible, c’est-à-dire à pouvoir migrer l’infrastructure chez un autre hébergeur le moment venu. On fait des points très régulièrement avec la Direction interministérielle du numérique et la Direction générale d’entreprises pour suivre le dossier offre cloud souverain qui est un dossier très important pour l’État bien évidemment.
Julie Gacon : On sait aussi, Stéphanie Combes, que le cœur de métier, comme on dit, de ces sociétés, Microsoft en l’occurrence qui assure l’hébergement en masse des données, c’est aussi d’ajouter progressivement ce qu’on appelle des fonctions propriétaires pour empêcher que leurs clients puissent migrer facilement vers d’autres plateformes. C’est un groupe privé qui n’a pas intérêt à ce que ces données lui échappent. En quelques mots, elles sont stockées physiquement où ces données ?
Stéphanie Combes : Aujourd’hui les données sont dans des serveurs qui sont localisés aux Pays-Bas et elles seront très prochainement dans des serveurs localisés en France.
Julie Gacon : Microsoft étant Américain, Yoann Nabat, qu’est-ce qui garantit aujourd’hui qu’il ne va pas trouver opportun, à un moment, de transférer ces données vers les États-Unis, c’est une inquiétude que la CNIL a soulevée ?
Yoann Nabat : Oui, effectivement. Il n’y a pas grand-chose qui garantit que ça ne transite pas justement par les États-Unis. Il faut bien comprendre qu’il ne s’agit pas simplement d’un stockage, comme on appelle en informatique, froid, c’est-à-dire on stockerait les données de manière chiffrée, on ne les utiliserait pas, simplement on les récupérerait pour les utiliser. Ce n’est pas le cas. C’est ce que fait par exemple déjà l’Allemagne avec Amazon, elle stocke ses données sur Amazon, c’est un stockage à froid, donc il n’y a pas de difficultés puisque c’est chiffré, donc Amazon n’a jamais accès aux données déchiffrées.
Julie Gacon : Ça change quoi en l’occurrence pour Microsoft ?
Yoann Nabat : Ce n’est pas le cas pour le Health Data Hub parce que les serveurs de Microsoft serviront aussi comme serveurs de calcul, comme puissance de calcul, donc les données vont forcément à un moment donné, c’est reconnu à la fois par la CNIL et par le Conseil d’État dans sa décision du 19 juin, transiter par les serveurs américains. Microsoft ne peut absolument pas garantir que les données vont rester et ne transiteront jamais par les États-Unis ?
Julie Gacon : Quel intérêt ? Je veux dire pourquoi les États-Unis s’intéresseraient aux données de santé françaises ? Pourquoi notamment la justice américaine s’intéresserait aux données de santé françaises puisque les opposants à la plateforme invoquent souvent le CLOUD Act [3], cette loi américaine qui permet à la justice de réquisitionner des données hébergées partout dans le monde, très souvent pour les besoins d’une enquête criminelle ? À priori, on ne voit pas pourquoi ça les intéresserait d’aller chercher nos données de santé.
Yoann Nabat : Oui effectivement, vous avez raison, c’est d’ailleurs l’argument qu’a retenu le Conseil d’État, il n’a pas censuré sur le fait qu’il n’y aurait à priori pas de circonstances qui feraient que concrètement des données, surtout pseudonymisées, pourraient permettre aux États-Unis, aux gouverneurs américains, aux agences fédérales, d’avoir accès aux données de santé de Français. Ce n’est pas vraiment ça qui est problématique à mon sens, ce n’est pas vraiment l’histoire du Pricacy Shield, du CLOUD Act et la possibilité pour les agences américaines d’y accéder, c’est plutôt le fait que les États-Unis en eux-mêmes ne sont pas un territoire, et c’est reconnu par la jurisprudence à la fois de la CNIL et de l’équivalent américain de la CNIL.
Julie Gacon : Le Contrôleur européen de la protection des données qui a rendu un rapport il y a quelques jours.
Yoann Nabat : Tout à fait. Et justement à l’occasion d’une décision [4] que la CJUE, la Cour de justice de l’Union européenne, a rendu au mois de juillet, il a précisé qu’on ne pouvait pas considérer les États-Unis comme un territoire sûr en matière de données personnelles. Que plus que le CLOUD Act, les services de renseignement américains notamment pouvaient accéder de manière très large aux données qui étaient contenues par des entreprises américaines. Donc le fait de stocker des données aux États-Unis était lui-même problématique. Ça c’est reconnu à la fois par Le Conseil d’État, par la CJUE et par la CNIL.
Julie Gacon : Stéphanie Combes, quels gardes-fous vous mettez ?
Stéphanie Combes : Les données ne sont pas du tout stockées aux États-Unis. Et si on lit très précisément l’ordonnance du Conseil d’État [5] et les avis de la CNIL ça n’est pas du tout ce qu’ils disent. Ce qui est dit c’est que quand une activité de maintenance ou d’administration qui serait faite par un employé de Microsoft se fait à distance sur des serveurs quand bien même aux Pays-Bas depuis les États-Unis c’est considéré comme un transfert le fait de pouvoir visionner des données.

Après, ce qu’il faut bien comprendre, c’est que les données qui peuvent être accessibles dans le cas d’une activité de maintenance ne sont pas des données de santé, ça va être des données techniques, des logs, des choses comme ça. C’est par rapport à ces données-là qu’il y a un « risque », entre guillemets, en tout cas une possibilité dans des configurations extrêmement rares, par exemple une catastrophe, d’accéder à ces données-là.
Yoann Nabat : Excusez-moi, ce ne sont pas des configurations extrêmement rares. Ce qui est pointé c’est davantage le fait qu’on ne peut pas traiter aujourd’hui des données en elles-mêmes qui sont chiffrées. Le chiffrement c’est très bien pour le stockage, mais quand on analyse les données elles sont déchiffrées, on ne peut pas utiliser et traiter des données qui restent chiffrées.
Julie Gacon : Quand vous dites traitement c’est l’étape d’après, c’est-à-dire quand on doit ensuite les croiser ?
Yoann Nabat : Faire du calcul.
Stéphanie Combes : J’étais en train de parler des transferts de données que vous évoquiez, après on peut parler du déchiffrement.

Quand des administrateurs doivent accéder à des données clients pour une opération de maintenance, dans les conditions qui ont été définies avec le client, donc nous, en l’occurrence, on a un service qui s’appelle la Log Box qui nous permet de consentir ou non à un accès à des données clients, donc les nôtres. Ce ne sont pas des données de santé auxquelles il y a aura un accès qui pourrait être rendu effectif. Effectivement, il y a quand même des discussions avec la CNIL parce que les logs ce sont aussi des données personnelles, sur les clauses contractuelles types qu’il y a dans nos contrats et l’impact de la décision de la Cour de justice de l’Union européenne, mais on n’est pas sur des transferts de données de santé aux États-Unis et ce n’est absolument pas ce qui est marqué ni dans l’avis de la CNIL ni dans l’ordonnance du Conseil d’État. Il faut quand même faire très attention à ce qui est dit.
Julie Gacon : Je vous laisse réagir Yoann Nabat en essayant de ne pas être trop technique, ce n’est pas toujours très facile à suivre et puis je ferai réagir Jean-Paul Hamon.
Yoann Nabat : Juste en deux mots, je me suis peut-être mal exprimé en parlant de transfert. Les serveurs de Microsoft ne vont pas être utilisés simplement pour stocker mais pour faire du calcul, pour faire de l’utilisation et du traitement de ces données et ce traitement des données se fait nécessairement sur des données déchiffrées. Microsoft ne pourra pas garantir que lors du traitement des données, lorsqu’on utilise les serveurs pour leur puissance de calcul, ce soit uniquement des serveurs situés en Europe qui feront ce travail de calcul. On peut parfaitement imaginer que ce seront des serveurs situés aux États-Unis qui le feront. C’est simplement ça que je disais.
Julie Gacon : Vraiment quelques mots s’il vous plaît.
Stéphanie Combes : Je suis désolée. Les services sont associés à des localisations géographiques très précises et l’ensemble des services auxquels nous avons souscrits, y compris les services de calcul, sont situés en Union européenne.
Julie Gacon : Ce qui pose aussi question Stéphanie Combes, au-delà de Microsoft, c’est le fait que ces données soient désormais centralisées, c’est une question technique puisque s’opposent en la matière deux méthodes différentes, la centralisation et l’interopérabilité des bases de données. Ce qu’on reproche au fait que ces données soient vraiment ultra-centralisées aujourd’hui par Microsoft ce sont les risques accrus de piratage. Vous disiez tout à l’heure, Jean-Paul Hamon, la confiance que vous avez dans l’assurance maladie qui n’a jamais trahi le secret médical, qui n’a jamais trahi les données de santé, mais il y a aussi la question du piratage. Je ne sais pas si certains de vos collègues en ont été victimes, mais des hôpitaux le sont régulièrement.
Jean-Paul Hamon : Il n’y a même pas besoin de piratage. Ce qui m’épate un peu c’est de voir le laxisme du gouvernement dans l’autorisation de l’utilisation des données de santé. Je pense notamment à Doctolib où, effectivement, c’est très commode : vous prenez rendez-vous, vous donnez votre portable, vous donnez votre mail, on sait quel médecin vous consultez, on sait à quel rythme vous consultez ce médecin. Bien souvent, quand vous consultez un spécialiste, je prends l’exemple du gynécologue, quand vous prenez rendez-vous vous devez dire si c’est pour une contraception, si c’est pour un frottis, si c’est pour un cancer, ou si c’est pour une chirurgie. Vous imaginez que ces données-là sont quand même extrêmement sensibles. Là on vient d’apprendre qu’en fait ils ont hébergé les données de santé pendant un moment sans être hébergeur de données de santé. Le gouvernement, que ce soit Mounir Mahjoubi puis Cédric O ont vraiment servi la soupe à Doctolib parce qu’ils pensent qu’ils détiennent une licorne, etc. On s’aperçoit maintenant que les données de santé sont hébergées chez Amazon. Tout ça, si vous voulez, est extrêmement inquiétant. Je comprends qu’on ait besoin de l’intelligence artificielle et d’avoir une base de données extrêmement importante. Personnellement je suis extrêmement inquiet et je pense qu’on aurait pu effectivement sécuriser davantage ce stockage de données ; on n’était pas à un an ou deux ans près. Et donner les moyens aux industriels français d’héberger ces données de santé qui sont effectivement d’une richesse et d’une exploitation au point que je doute fort que les données recueillies par Doctolib ne soient pas utilisées à des fins commerciales dans une autre vie ou même parallèlement. Je suis vraiment extrêmement inquiet.
Julie Gacon : Est-ce qu’on peut comparer ces deux choses ? Vous évoquez Doctolib, Jean-Paul Hamon, il y a eu une énorme enquête dans Télérama il y a quelques semaines avec notamment des anciens de Doctolib qui disent, par exemple, que la question n’est pas de savoir si une méga-fuite de données est possible mais quand elle aura lieu et d’évoquer, par exemple, une base une base de données des patients partagée sans mot de passe sur des clefs USB ou via le service d’envoi de fichiers de WeTransfer, mais on est dans un cas différent : Doctolib n’est pas autorisé à héberger des données de santé, ce qui n’est pas le cas de Microsoft. Pour qu’on comprenne bien aussi, Stéphanie Combes, ces données générées par les patients, les médecins et les hôpitaux qui intéressent-elles ? Qui, pour l’instant, a accès à ces millions de données ? Qui y aura accès à terme ?
Stéphanie Combes : Je ne peux vraiment pas m’exprimer pour Doctolib. S’agissant de Health Data Hub l’idée c’est vraiment la mise à disposition de données à des porteurs de projet. Les porteurs de projet doivent quand même suivre un circuit qui n’est pas jugé simple mais qui est justement là pour vérifier que les projets vérifient bien l’intérêt public, sont bien solides sur le plan scientifique. La CNIL va regarder attentivement si le périmètre des données concernées par le projet est bien le bon, c’est-à-dire que si on s’intéresse à une pathologie et qu’on ne demande pas accès à la base en entier.
Julie Gacon : Mais que des chercheurs ? Quand vous parlez de projets, ce ne sont que des chercheurs.
Stéphanie Combes : Ce sont des projets d’étude ou de recherche, après ça ne donne pas forcément lieu à un article académique de très haut rang, mais ça va permettre d’éclairer un certain nombre de sujets. Il y a un comité éthique et scientifique national qui va instruire les dossiers qui sont assez touffus. Après la CNIL, évidemment, va regarder si le respect de la vie privée est bien garanti et ensuite c’est le Health Data Hub en collaboration avec ces porteurs de projet qui va assurer le niveau de sécurité des traitements, la traçabilité totale de toutes les requêtes qui seront faites afin qu’on puisse auditer si les porteurs de projet ont effectivement réalisé les études qu’ils avaient annoncées dans leur dossier. Donc on est sur une configuration qui est quand même assez différente.

Les données sont centralisées pour pouvoir facilement permettre des extractions, des chaînages entre différentes sources, mais les porteurs de projet, eux, n’ont accès qu’au périmètre strictement requis pour leur projet et absolument pas aux données des voisins ou à l’ensemble des données de la plateforme.

Je reviens sur votre propos un peu plus tôt, ce n’est pas vraiment une opposition entre interopérabilité et centralisation, parce que même quand on centralise des données, on a besoin qu’elles soient interopérables pour pouvoir les chaîner et les enrichir mutuellement. C’est simplement qu’aujourd’hui les données sont réparties sur l’ensemble du pays, il y a des centaines et des centaines de bases qui sont dans des établissements hospitaliers, sur des ordinateurs locaux parfois, dans différentes structures, et on a besoin, si on veut avoir un levier de réutilisation de ces données et atteindre les masses critiques qui sont essentielles pour la robustesse des analyses, de les centraliser. C’est aussi une manière de montrer le niveau de sécurité de l’hébergement de toutes ces données de santé, puisque c’est extrêmement onéreux de monter une infrastructure sécurisée, d’avoir une équipe d’opérateurs pour la suivre – moi j’ai une équipe de personnes qui est payée pour s’assurer, suivre des indicateurs de sécurité, etc. Donc le Health Data Hub apporte aussi cette offre de service aux producteurs de données.
Julie Gacon : On arrive à la fin de cette émission. Yoann Nabat ce que vous écrivez dans ce long article [6] que je citais tout à l’heure sur le site de The conversation c’est, dites-vous, que l’on peut faire une analogie entre les fichiers de données de santé et ceux qui concernent la sécurité et la justice, analogie dans les finalités de ces fichiers. Je voulais que vous nous le rappeliez parce que vous êtes doctorant en droit pénal et sciences criminelles. Vous ne travaillez pas, à l’origine, spécifiquement sur les fichiers de santé.
Yoann Nabat : Non. D’ailleurs l’analogie peut paraître un peu incongrue comme ça de prime abord, en réalité elle ne l’est pas.

Je vise davantage les fichiers qui ont été mis en place pour le coronavirus, SI-DEP et Contac Covid, plus que le Health Data Hub, avec l’idée qu’il y a vraiment des points de comparaison possible. Ce qui m’intéresse notamment c’est l’évolution des fichiers de police pour essayer d’imaginer l’évolution des fichiers de santé. On s’aperçoit que comme les fichiers SI-DEP et Contact Covid ont été défendus sur l’idée qu’il s’agissait uniquement du coronavirus pour des finalités précises bien délimitées, c’est la même chose en matière de fichiers de police. Lorsque le fichier des empreintes génétiques, le FNAEG, a été créé en 1998, il a été créé uniquement pour les crimes sexuels, ce qui est évidemment une finalité extrêmement précise et restreinte qui ne concernait que quelques centaines, au maximum, d’individus. Or d’année en année et en 20 ans il s’est énormément étendu, de loi en loi qui ont étendu son champ d’action, son périmètre, sa finalité, et aujourd’hui le FNAEG recueille les données génétiques de quasiment l’intégralité des auteurs de délits et de crimes dans des champs qui ne sont plus du tout ceux de la criminalité sexuelle. Là où je m’interroge c’est que ça a été fait au nom d’une finalité qui est un enjeu sanitaire et finalement l’enjeu sécuritaire n’est pas très loin.
Julie Gacon : Et toujours au nom de l’ordre public. Merci beaucoup.

Je rappelle quand même que StopCovid a été activé par 2 % de la population et qu’il y a seulement 350 000 personnes actives, ça fait 0,5 %. Cette application n’est pas un grand succès. Merci d’avoir rappelé ça, Yoann Nabat. On met en ligne votre article sur le site de France Culture.

Je vous remercie Stéphanie Combes d’avoir été avec nous, directrice du Health Data Hub, et je vous remercie Jean-Paul Hamon, médecin généraliste, président d’honneur de la Fédération des médecins de France. Merci à vous tous d’avoir été avec nous. Dans un instant la seconde partie du Magazine du week-end.

Libre à lire !

Le coronavirus menace-t-il nos données de santé ? Le magazine du week-end

Description

Transcription

Les dangers concrets de l’obsolescence démontrent la nécessité de maîtriser son informatique

Libre à vous ! Radio Cause Commune - Transcription de l’émission du 7 janvier 2020

ChatGPT et l’inexorable avancée de l’IA

Libre à vous ! Radio Cause Commune - Transcription de l’émission du 20 octobre 2020