Quel rôle pour l’open data en temps de pandémie ? - Guillaume Rozier

D’après un média publié le 06/05/2021 Source Avertissement

Personne·s Guillaume Rozier Claire Comcom

Thèmes Open Source/Open Science/Open Data /Données libres et ouvertes Institutions Partage du savoir

Type de publication Vidéo

Claire : On commence. On est vraiment super contents de vous recevoir aujourd’hui pour aborder le sujet d’open data qu’on n’a pas l’habitude de pouvoir aborder à 42.
Pour les participants, je ne sais pas si le nom de Guillaume Rozier vous dit quelque chose, en tout cas je pense que c’est un peu inévitable, forcément, vous n’avez pas pu passer à côté de CovidTracker un outil qu’il a développé sur la dernière année.
Guillaume Rozier, pour vous présenter rapidement, vous êtes data scientist, vous venez de fêter vos 25 ans pile-poil il y a à peu près une semaine, donc bon anniversaire avec un peu de retard.

Guillaume Rozier : Exact. Merci.

Claire : Vous venez de Savoie. Pour votre parcours, vous avez fait une prépa MPSI [Mathématiques, physique et sciences de l’ingénieur] à Grenoble. En 2016 vous avez intégré l’École d’ingénieurs TELECOM Nancy où vous vous spécialisez dans le big data avec une option « biomédical ». Et puis il y a eu mars 2020. C’est votre dernier semestre d’études mais, dans le monde, tout le monde commence à parler un petit peu du Covid. On voit que ça s’agite un petit peu du côté de nos voisins italiens. En France on n’est pas encore trop stressés, on regarde ça d’un œil un peu sceptique, on ne comprend pas trop, mais vous, vous commencez déjà à regarder les chiffres en Italie et en France, vous les comparez et vous voyez, en fait, que les courbes se superposent quasi parfaitement à huit/dix jours d’intervalle. À partir de là vous commencez à faire quelques graphiques que vous finissez par mettre un site pour automatiser un petit peu le processus. Au début vous vous dites « c’est bien, ça va faire un projet pour mon CV d’étudiant », finalement, un an après, c’est devenu la plateforme que c’est aujourd’hui.
Pour parler un petit peu de la plateforme aujourd’hui c’est neuf outils en tout. Ces derniers mois on a surtout entendu parler, évidemment, de CovidTracker mais aussi de VaccinTracker sur le suivi de la vaccination et Vite Ma Dose qui, aujourd’hui, est vraiment l’outil indétrônable puisque cet après-midi il a même été promu par Emmanuel Macron, donc c’est la petite consécration, de l’outil en tout cas. On ne présente plus tous ces outils. Aujourd’hui, à côté, vous travaillez aussi comme consultant, en fait vous travaillez beaucoup depuis un an.
On va revenir peut-être un petit peu avec vous sur ce qu’est CovidTracker aujourd’hui ? Combien de personnes le visitent ? Combien de personnes le fabriquent ? Racontez-nous un petit peu, en deux mots, ce qu’est cet outil que vous construisez depuis un an.

Guillaume Rozier : Je vais juste réagir avant sur le côté open data, on peut se tutoyer, je pense.

Claire : On a le même âge en fait.

Guillaume Rozier : Tout à l’heure je ne sais plus qui a dit qu’on ne parle pas trop d’open data, etc. C’est marrant parce là je reviens d’une émission qui s’appelle Par Jupiter ! , sur France Inter pour ceux qui connaissent, c’est plutôt une émission littéraire, ce n’est pas du tout dans l’informatique, etc., et tout à l’heure j’étais à Par Jupiter ! en train de promouvoir l’open data. Ça m’a fait marrer. Si un jour on m’avait dit que j’aurais l’occasion de parler d’open data à la radio, en plus dans une émission comme celle-là, franchement je ne l’aurais jamais cru. C’est un plaisir pour moi et je pense que l’open data c’est hyper-important, c’est même crucial pour les prochaines années, l’open source de manière générale, mais notamment l’open data. Je considère que c’est vraiment un enjeu numérique des prochaines années.
Désolé, j’ai dévié un peu. Pour en revenir un peu à CovidTracker [1], aujourd’hui c’est toujours un site, malheureusement, qui permet de suivre l’épidémie, qui permet de savoir quelle est la gravité de l’épidémie mais surtout de contextualiser, de comprendre plus finement comment l’épidémie se développe dans chaque tranche d’âge, dans chaque département, dans chaque région et quelle est la dynamique de l’épidémie. Finalement quel est le contexte, quelle est l’évolution de manière à essayer de mieux anticiper.
C’est parti de rien, comme tu l’as dit, c’est parti d’un graphique que j’ai fait en mars 2020 du nombre de cas en France, en Italie et qui était vraiment immonde, il n’était pas fait pour être partagé, mais je l’ai envoyé à quelques amis. Je l’ai envoyé à ces gens-là et, en fait, ils étaient intéressés par ce graphique et ils voulaient que je fasse une mise à jour le lendemain, le surlendemain, pour voir les nouvelles données. Et puis, de fil en aiguille, c’est devenu un site, mais un site vraiment hyper-basique, même au tout début, pour l’anecdote, c’était un read me de GitHub, c’est comme ça que ça a commencé, quelque part c’était la première version du site. Après ça s’est un peu amélioré, on a rajouté des fonctionnalités, etc., ça a grossi, on a fait d’autres outils.
Là, au mois d’avril, on a dépassé les dix millions d’utilisateurs uniques. En termes de vues ça fait plus parce que les gens reviennent plusieurs fois et visionnent plusieurs pages, donc ça fait plusieurs dizaines de millions de vues au mois d’avril. Ce n’était pas du tout ni prévu ni anticipé et on a pu constater ce que c’était devenu vraiment cet automne, finalement c’était assez tard, c’était six/huit mois après la création du site qu’on s’est rendu compte de ce qu’il commençait à devenir, parce qu’en fait des hôpitaux ont commencé à l’utiliser, à nous appeler. Il y a un hôpital qui m’a appelé pour me dire « merci Guillaume d’avoir fait CovidTracker, on l’utilise tous les jours en cellule de crise ». C’est là qu’on a vu qu’il avait pris de l’ampleur. Pour moi, jusque-là, c’était un truc de niche que quelques personnes consultaient chez elles et là je me suis dit « en fait ça devient important, ça devient utile ».

Claire : Vous êtes combien aujourd’hui derrière ça ? J’imagine que vous avez un noyau dur de bénévoles et peut-être des satellites qui font parfois une pull-request de temps en temps ?

Guillaume Rozier : Exact. En fait ce n’était pas prévu, on ne s’est jamais projeté, enfin moi je ne me suis jamais projeté parce que je n’avais pas conscience de ce que c’était, je pensais que ça ne servait pas à grand-chose et je me disais quelque part quelqu’un d’autre va le faire, peut-être le gouvernement. Je ne viens pas du tout de l’univers du développement web, je n’avais jamais écrit une ligne de développement web, j’étais complètement incompétent en développement web et, dans ma tête, ce n’était pas à moi de faire ça.
Finalement, pendant plusieurs mois, je ne me suis jamais projeté, je ne me suis jamais dit « tiens, je vais chercher une communauté, je vais chercher des développeurs, on va se mettre ensemble, on va faire un truc ouf, on va planifier, etc. », à aucun moment je ne me suis dit ça. Finalement c’est très tardivement, en fin d’année 2020, que des personnes ont commencé à me proposer de l’aide et que j’ai accepté avec grand plaisir. Je me suis dit « allez, go, en fait ça a du sens, c’est utile, l’épidémie va malheureusement rester encore un peu », donc j’ai accepté l’aide. Donc depuis fin 2020 on est une dizaine, on va dire un noyau dur d’une dizaine de personnes pour CovidTracker. Pour les autres outils, par exemple Vite Ma Dose [2] qu’on a lancé le premier avril, j’ai fait un peu un appel à développeurs sur Twitter et 110 personnes ont rejoint le truc, c’est absolument fou et sur les 110 une cinquantaine est très active, ils sont actifs au quotidien.

Claire : C’est quel genre de profil les gens qui vous aident ? J’imagine que ce ne sont que des développeurs ou des créatifs peut-être.

Guillaume Rozier : Il y a beaucoup de développeurs, dans tous les domaines, parce que du coup il y a des back, il y a des front. Sur Vite Ma Dose il y en a dont le métier n’est même pas forcément dans le domaine de l’informatique ou du développement, mais qui prennent de leur temps perso parce que ça les fait kiffer. On a aussi un graphiste, on a aussi des UX [User Experience], des UI [User Interface], des gens de la com’, des gens qui écrivent les newsletters, des gens qui font du community management. Oui, il y a un peu de tout. Des gens qui ne sont rien de spéciaux, Elias par exemple, je vais parler d’Élias, il est encore étudiant en école de commerce, il n’est ni dev, ni com’, etc., mais il aide, il donne des idées. Donc oui il y a vraiment de tout, même si on a une bonne majorité de développeurs parce que c’est quand même le cœur du projet, c’est nécessaire. Donc plusieurs dizaines de personnes.

Claire : Qui sont bénévoles et je voulais revenir là-dessus. Est-ce que la gratuité de votre service semblait aller de soi, du coup avoir un modèle derrière qui est celui de bénévoles et d’une communauté du Libre finalement ?

Guillaume Rozier : Oui pour ce projet-là. En fait, vu que ça touche à la santé, à l’épidémie, etc., on ne se sentait ni de rendre l’outil payant ni de mettre des pubs parce qu’on n’aime pas la pub et aussi parce ça attire l’attention. En fait, on considère que c’est un service public donc ça doit rester gratuit et « pur » entre guillemets.
Après, il nous tenait aussi à cœur que ça soit open source, notamment pour des questions de transparence et de crédibilité, enfin de confiance. On a envie que les gens aient confiance dans le site, donc on a envie que les gens puissent vérifier que les traitements qui sont faits derrière sont corrects, qu’il n’y a pas de biais, qu’il n’y a pas de données manipulées, etc.
Finalement aussi parce qu’on utilise des données qui sont en open data, les données de Santé publique France [3] en très grande majorité, qui est l’administration qui surveille la santé publique en France, qui collecte les données par exemple le nombre de gens hospitalisés, le nombre de cas, etc. Ces données sont publiées en open data, donc, quelque part, on se sentait redevable. On disait ces données sont publiées en open data donc nous aussi on doit faire un truc ouvert qui réutilise ces données-là. Donc voilà. Finalement ça fait un beau cycle.

Claire : Du coup, justement, vous parliez de confiance en l’outil par rapport à l’outil ouvert. Ce qui est intéressant, quand on vous écoute, on vous entend dire, par exemple, que le fait d’avoir ces open data ça permet aussi, peut-être, de restaurer la confiance finalement dans les institutions, les gens qui les produisent parce que tout est vérifiable. Vous dites même que ça peut être une arme pour lutter contre le complotisme. Est-ce que vous pouvez développer un peu là-dessus, sur comment vous avez construit ça ?

Guillaume Rozier : Je pense que l’open data donne confiance à plusieurs niveaux.
Pour parler du complotisme, je dis même que c’est une arme contre le complotisme, la meilleure arme contre le complotisme. En fait il y a un peu plus d’un an, en mars 2020, quand un complotiste me disait sur Twitter « le Covid ou la Covid – je ne sais pas, que je dise le ou la Covid je me fais tailler – le ou la Covid n’existe pas, il n’y a pas 20 000 cas par jour, etc. », qu’est-ce qu’on pouvait lui répondre à part « si, ça existe ; si, fais confiance au ministre de la Santé qui annonce 20 000 cas par jour », c’est tout, ce n’est pas très fort comme argument. Aujourd’hui tu lui dis « tu vas sur le site data-gouv.fr [4] qui est la plateforme publique qui centralise l’open data en France, tu vas voir le fichier ou tu te branches à l’API pour avoir les données du nombre de cas dans ton département ou même dans ta communauté de communes – puisque ça va jusqu’à ce niveau de détail – dans ta tranche d’âge. Ensuite tu demandes à tous les laboratoires qui sont autour de chez toi et tu compares les deux chiffres. Tu verras directement si le gouvernement a modifié les données ou pas ». En fait, les données deviennent vérifiables. Ça donne aussi la confiance, ça permet de comprendre et de mieux adhérer aux décisions qui sont prises. Ça permet de donner confiance dans les décisions qui sont prises, parce que les décisions sont prises sur des faits qui sont objectifs, donc ça permet de comprendre ces décisions, de comprendre pourquoi telle décision publique a été prise ou autre, donc de mieux y adhérer.
Finalement, en l’occurrence là dans l’épidémie, mais ça peut s’appliquer à plein d’autres domaines, ça permet aussi de mieux lutter contre l’épidémie puisque chacun peut évaluer la situation chez lui, dans son département, chacun peut voir la saturation des hôpitaux près de chez lui, etc., donc ça permet d’adapter son comportement donc de mieux lutter contre l’épidémie en fonction de la réalité de la situation. Beaucoup de gens me disent, et je trouve ça très cool, « merci, grâce à CovidTracker j’ai vu que la situation n’était pas bonne dans mon département, donc j’ai annulé mon anniversaire », ou l’inverse « j’ai vu que la situation était bonne dans mon département, donc je me suis permis de fêter mon anniversaire alors que sinon je ne l’aurais peut-être pas fait ». Je trouve ça aussi très cool, ça permet peut-être de responsabiliser les gens et de ne pas attendre qu’une décision soit prise par un politique. Responsabiliser les gens pour qu’ils se battent automatiquement.

Claire : Ce qui est intéressant c’est que, justement, les gens ne vont pas se référer à l’open data brute, ils vont choisir d’aller sur votre site. Bien sûr il y a la donnée brute, mais quand on va regarder les sources, la donnée brute ce sont des fichiers csv, ce n’est pas hyper-sexy quand on est néophyte de tomber là-dessus. Quel est, pour vous, l’enjeu de la visualisation des données dans la communication qu’on va faire justement au public des chiffres mis en open source, en open data.

Guillaume Rozier : En fait, d’une manière générale, c’est important. Il y a, par exemple, d’autres plateformes, il y a des plateformes officielles, il y a Géodes [5], il y a le dashboard d’Etalab [6] qui s’est d’ailleurs bien amélioré, il est devenu cool. Géodes est l’outil officiel de Santé publique France pour accéder à différentes métriques. Aujourd’hui dans l’audience, dans les 31 personnes, qui connaît Géodes. Je pose la question, je ne pense pas qu’il y en ait beaucoup, alors que c’est le site officiel.

Claire : Pas beaucoup. Ah si !

Guillaume Rozier : Il y en a un qui connaît je pense. Ce sont des données brutes, ce n’est pas forcément hyper-intuitif, il faut aller naviguer dans les menus, même moi des fois je me perds, ce n’est pas tourné grand public. Donc un professionnel de santé, un médecin, un journaliste qui veut accéder à telle donnée très précise dans tel département oui, il va s’adapter. Mais un citoyen qui veut comprendre la situation épidémique chez lui sans trop réfléchir, etc., eh bien ce n’est pas fait pour lui, il va falloir qu’il navigue dans les boutons et le soir à 20 heures, après le taf, tu as envie de tout sauf de te creuser la tête pour savoir comment naviguer sur le site.
Je pense que pour le grand public il y a un besoin de pédagogie, c’est-à-dire de rendre quelque chose de compliqué simple, de faire de la pédagogie, de clarifier, de guider, de dire « ça c’est important, ça c’est moins important, ça c’est grave, ça c’est moins grave », en fait une hiérarchisation de la donnée et une visualisation de la donnée qui est importante pour contextualiser, pour comprendre. Des fois tu as une information, avec un graphique, en un coup d’œil, tu la comprends, alors que si on te donne le tableau de données, il faut que tu réfléchisses dix minutes pour comprendre le phénomène. Donc oui, ce gros travail c’est aussi une hiérarchisation et une sélection des données. Quand tu vas sur CovidTracker – ce n’est pas du tout parfait, loin de là, il y a plein de défauts –, mais on a essayé de faire sur la page d’accueil qu’il y ait deux indicateurs, en gros tu as deux graphiques. Moi j’aurais eu envie de mettre 15 indicateurs parce que j’estime que pour vraiment comprendre la situation il faut en regarder 15 en même temps. Mais la personne lambda qui ne s’intéresse pas forcément à la santé publique, qui ne s’intéresse pas forcément à l’épidémiologie, etc., qui a juste envie de savoir si ça va bien ou si ça ne va pas bien, elle n’a pas envie de voir 15 indicateurs sinon elle ne va même pas réfléchir, elle va partir et c’est tout. Donc des fois il faut un peu mâcher le travail et puis hiérarchiser et dire « si tu veux vraiment avoir un coup d’œil rapidement voilà les deux indicateurs, maintenant si tu veux mieux comprendre dans le détail, tu peux aller voir… ». On voit à l’écran les indicateurs qu’on a mis, c’est juste les cas et les réanimations. Moi j’aurais envie d’en mettre des dizaines d’autres. Par exemple, les réanimations, ce sont les lits occupés dans les réanimations, mais c’est encore plus intéressant de regarder les admissions, c’est-à-dire les entrées quotidiennes en réanimation et puis de regarder le nombre de lits occupés à l’hôpital et les admissions à l’hôpital. Mais ça, déjà, ça fait quatre indicateurs. Si je mets quatre graphiques, l’utilisateur va être perdu. Au bout d’un moment il faut faire des choix.
Et puis des cartes. Habituellement il aimera mieux une carte pour comprendre en un coup d’œil une répartition géographique de données.

Claire : Du coup cette visualisation, bien sûr, touche le grand public, tout le monde qui a envie de se renseigner sur la question. Ce qui est hyper-intéressant et après je ne sais pas ce que vous en pensez, c’est que finalement, comme vous le disiez tout à l’heure, ça atteint carrément les institutions. C’est-à-dire que vous avez vraiment supplanté, en fait, les services du gouvernement. Je sais qu’on t’interroge quand même beaucoup là-dessus parce que, forcément, quelque part c’est hyper-réjouissant de voir un projet citoyen réussir à se faire entendre, mais d’un autre côté on se dit « mince, est-ce que ce n’est pas aussi le rôle de l’État de produire ce genre de choses ? » Qu’est-ce que tu penses du positionnement de CovidTracker là-dessus, que ce soit utilisé partout ?

Guillaume Rozier : Je n’ai pas de réponse. En tout cas j’ai plusieurs choses à dire.
D’abord oui, quand le premier hôpital m’a appelé pour me dire « on utilise CovidTracker », sur le coup j’étais hyper-content, c’est trop cool, mon site sert à quelque chose, etc. Ensuite, au bout de cinq minutes, je me suis dit « attends, tu as 24 ans, tu es étudiant, tu es en stage de fin d’études, tu n’es pas du tout développeur web. Sur ton temps perso, en quelques heures, tu as posé à l’arrache un site avec des technos nulles et tout et c’est ça qui est utilisé dans des hôpitaux pour éventuellement anticiper des besoins en matériel, anticiper des besoins humains, donc potentiellement, disons-le, sauver des vies, il y a peut-être un truc qui n’est pas normal ». Honnêtement je n’ai pas de réponse.

Claire : C’est aussi une responsabilité.

Guillaume Rozier : Oui, ça devient une responsabilité du coup. C’est sûr qu’il y a un an, quand il y avait un bug sur le site je disais « je regarde une bonne série, je dors et demain je le corrigerai ». Aujourd’hui non, s’il y a un bug, il faut le corriger maintenant, ça ne peut pas attendre.
Il y a eu beaucoup d’articles, il y a eu une réponse intéressante, je trouve, qui est venue sur Twitter, c’est de dire que finalement c’est peut-être le fonctionnement normal de l’open data, c’est-à-dire que l’État fait la chose qu’il est le seul à pouvoir faire, collecter des données de santé. Légalement on peut très difficilement le faire si on n’est pas l’État et puis, de toute façon, en tant que citoyen on n’a pas les ressources, moi-même je n’ai pas les ressources, ni humaines ni financières, pour le faire à sa place, donc collecter des données de santé. Par contre, ensuite, l’État doit être obligé de les agréger et surtout de les publier en open data avec un bon format, c‘est-à-dire pas en pdf, pas en image – je balance, mais comme ce que fait le ministère de l’Éducation nationale qui publie des données en pdf, on ne peut pas faire grand-chose avec des pdf. Donc les publier en bon format, de façon exhaustive, avec des mises à jour quotidiennes. C’est important la fraîcheur des données, avec une bonne qualité, avec pas trop d’erreurs et j’en passe. C’est hyper-important de le faire, l’État doit le faire. Ensuite, de l’autre côté, tu as des citoyens, tu as des organisations publiques, des administrations, tu as aussi des organisations privées, des entreprises, qui peuvent s’emparer de ces données, les réutiliser et faire des outils, des sites, des produits, je n’en sais rien, qui sont utiles, qui sont innovants, créatifs et qui vont répondre à un réel besoin.
Je trouve aussi très intéressante, du coup, cette complémentarité entre l’État qui collecte les données, les stocke mais ensuite les publie – on voit bien l’importance de les publier – et, de l’autre côté, tous les autres qui réutilisent ces données et qui produisent de la valeur.

Claire : C’est intéressant que tu dises ça justement sur cette production de données. À mon avis c’est totalement spécifique à cette crise où, finalement, il y a un outil qui s’est imposé et qu’à un moment tu t’es retrouvé quasi dans un rapport de force avec le ministère à l’épisode de VaccinTracker [7]. J’ai lu dans différents articles que, pendant une ou deux semaines, en fait tu étais la seule personne à avoir, par télégramme il me semble, les chiffres de la vaccination en France et qu’un jour c’est toi qui as dit, qui as posé, limite, un ultimatum à Olivier Véran, ce qui n’est quand même pas rien, en disant « soit ces données-là sont publiques soit moi j’arrête d’alimenter le site ». Donc ça montre quand même la puissance de l’outil à ce moment-là où tu es arrivé à être dans un rapport de force avec un ministère.

Guillaume Rozier : Oui. On a vu des articles « CovidTracker met la pression au gouvernement », il y a un article sur Capital qui avait dit ça. Non, on ne veut mettre la pression à personne !
Je ne sais pas exactement ce qui s’est passé au final. On a lancé VaccinTracker le 27 décembre quand Mauricette a été vaccinée, je pense qu’on se souvient tous de Mauricette qui se fait vacciner à la télé, c’est la première à se faire vacciner. Moi je vois ça à la télé, je me dis « mince, il faut un outil pour qu’on puisse comprendre comment avance la vaccination, à quelle vitesse, dans quels départements, par tranche d’âge, etc., donc voir où on est en est, quand est-ce que tout cela sera fini, etc. »
Donc j’ai commencé à développer ça et puis le soir, en fait, j’avais un truc qui était basique mais qui était prêt. Et là je me suis dit « en fait j’ai un petit problème, c’est qu’il n’y a pas de données », c’est-à-dire que le ministère ne nous dit pas combien de gens ont été vaccinés, combien de doses ont été livrées, en fait on ne sait rien. C’est fou !
On a quand même décidé de le sortir, mais sans données du coup. Donc on a décidé de collecter nous-mêmes les données. Concrètement on allait voir les articles dans la presse régionale du type « Dans l’EPAD de Grenoble huit personnes ont été vaccinées aujourd’hui » et on a créé notamment un compteur, on faisait + 8. Et en fait, au bout de quelques jours, c’est devenu le seul compteur de vaccination qui, du coup, n’était pas du tout exhaustif, on ne pouvait pas compter toutes les personnes vaccinées, ce n’était pas possible, mais ça avait le mérite d’exister et c’était le seul. Donc les médias ont commencé à se baser dessus. BFM disait « 150 personnes ont été vaccinées, source VaccinTracker et tout ». Au bout de deux jours je reçois un coup de fil du directeur de cabinet d’Olivier Véran, le ministre de la Santé, pour m’expliquer plein de choses, entre autres me dire « si vous voulez, on vous donne des données qui sont un peu plus exhaustives et officielles ». Moi j’ai dit « ouais, c’est trop cool, on ne veut que ça, je suis grave chaud. »
À partir de là, en fait, ils m’ont envoyé par message, ce n’était pas des données très exhaustives, tous les jours des nouvelles données, enfin presque tous les jours. Donc ce n’était pas trop mal, du coup on pouvait mettre à jour VaccinTracker avec des données qui étaient meilleures que celles que nous pouvions collecter.

Claire : Qui étaient nationales du coup ou qui étaient locales ?

Guillaume Rozier : Oui, tout à fait. Nationales, exact.
Après, au bout de quelques jours, on leur a dit « s’il vous plaît, publiez ces données. Genre faites un tweet, mettez un tableur sur le site du ministère, on s’en fout, mais faites un truc, publiez-les ! »
Ils n’y tenaient pas trop, ils ont continué avec des SMS. Après on s’est rendu compte que moi j’avais des coups de fils de médias un peu énervés qui m’appelaient en disant « mais comment avez-vous ces données-là ? », je disais « c’est le cabinet du ministère de la Santé », ils me disaient « mais comment ça se fait ?, etc. », parce qu’en fait quand les médias demandaient les chiffres au ministère de la Santé, ils n’avaient pas de réponse, on leur disait « non, on ne communique pas les chiffres ».
En fait, on était dans une situation dans laquelle le ministère de la Santé ne donnait les chiffres qu’à nous, il ne les donnait pas aux médias, il ne les publiait pas.
Au bout des deux semaines on a dit « s’il vous plaît, on veut vraiment que vous publiiez les données », ce qu’ils n’ont pas fait. C’était un lundi, entre le 10 et le 15 janvier je pense, on a mis un message sur VaccinTracker et j’ai mis aussi un message sur Twitter en disant « à partir d’aujourd’hui on ne mettra à jour VaccinTracker qu’avec des données publiques, donc des données disponibles à tous ». Coïncidence ou pas, on ne saura jamais, le soir ils ont fait le tout premier communiqué de presse avec le nombre de vaccinés, c’était la première fois qu’ils donnaient le nombre de vaccinés dans un communiqué de presse, et détaillé par région, de mémoire, à 23 heures 30, on ne fait pas trop de communiqués de presse à 23 heures 30. Et le lendemain l’open data était en place, c’est-à-dire que sur data.gouv.fr il y avait tous les fichiers avec les vaccinations par région, je crois, je ne sais plus ce qu’il y avait exactement, mais c’était beaucoup mieux. On n’avait rien avant donc c’était forcément mieux, mais il y avait des choses.

Claire : C’est quand même incroyable !

Guillaume Rozier : On ne saura jamais si ça a eu un effet ou pas. Ce qui compte c’est qu’on ait l’open data et aujourd’hui on l’a.

Claire : Là c’est un exemple quand même assez incroyable, en tout cas c’est une aubaine, même si c’est un peu triste d’avoir besoin d’une pandémie mondiale pour avoir des données de santé en open data. Est-ce que vous pensez, est-ce que vous voyez ça d’un bon œil pour la suite ? Est-ce que vous pensez que ça peut éventuellement changer des choses ?

Guillaume Rozier : Oui. En tout cas, je pense que ça a permis à certaines administrations de prendre conscience de l’importance de l’open data. L’open data ce n’est pas nouveau, Etalab qui est l’organisation, en France, qui organise ça a été créée en 2010, donc ça fait quand même du temps. Il y a une loi, pour une République numérique [8], qui est passée en 2016, ça fait quand même déjà cinq ans. Cette loi, en fait, normalement, elle change le paradigme. Jusque-là, en gros, c’était « les administrations ne publient aucune donnée de base », la norme c’est qu’on ne publie rien sauf, éventuellement, tel jeu de données qui peut être intéressant. La loi de 2016, pour une République numérique, normalement elle avait pour objectif de dire que la norme, à partir de maintenant, c’est de publier les données sauf, évidemment, celles qui peuvent poser des problèmes au niveau ré-identification, vie privée, etc., ce qui est bien normal.
Force est de constater que ce nouveau paradigme n’est pas forcément accepté, appliqué, implémenté par tout le monde, par toutes les administrations. Jusque-là, en fait, l’open data était quand même relativement abstraite, je suis peut-être un peu dur en disant ça, mais des personnes qui ne sont pas dans l’informatique se disaient « à quoi ça sert l’open data ? Ça ne sert à rien ». Le fait d’avoir ces initiatives ça permet de rendre tangible, de matérialiser vraiment, de voir l’intérêt de l’open data de façon très concrète. Je pense que ça aide à faire bouger un peu les mentalités. D’ailleurs, au niveau politique, ça semble bouger. Il y a un rapport d’un député qui s’appelle Éric Bothorel, un gros rapport [9].

Claire : Et une circulaire qui est passée il y a six jours.

Guillaume Rozier : Exact. En fait, il a fait un gros rapport en 2020 sur l’open data pour dire ce qu’est l’open data, à quoi ça peut servir et avec des recommandations. D’ailleurs il m’avait interrogé, en tant que créateur de CovidTracker, pour participer au rapport qu’il a remis au Premier ministre en décembre, je crois. Sur la base de ce rapport, le Premier ministre a fait passer une circulaire [10], comme tu l’as dit la semaine dernière,en gros pour établir une roadmap de l’open data en France et, en gros, il a demandé à tous les ministères de passer la seconde sur l’open data, même de nommer je crois un référent open data dans chaque ministère, de proposer, d’ici juin je crois, la liste de toutes les données qui seraient publiées par chaque ministère, etc. Je pense que là on va avoir un réel coup d’accélérateur, j’espère cette année ou l’an prochain, et ça va être très cool parce que, du coup, il y a des données qui n’ont jamais été publiées, qui vont être publiées. Et ça a commencé. L’IGN, la cartographie en France, l’Institut national géographique a mis en open data toutes ses données, en janvier je crois, donc ça a commencé et ça va continuer. Je crois que Météo France, cette année ou l’an prochain, va mettre plein de trucs en open data, donc ça va bouger. Ça peut être très cool parce qu’il y a des données qui n’ont jamais été publiées. Imaginez tout ce qu’on peut faire avec ça, on peut faire des corrélations entre la météo, la santé ; on peut faire des trucs vraiment très cool.

Claire : Du coup, quand vous avez justement voulu faire toutes les cartes, les graphiques, etc., est-ce que vous avez pu rencontrer des résistances politiques ou autres dans l’accès aux données ou à des bases de données qui étaient un peu pourries, pour le dire très simplement ?

Guillaume Rozier : Des résistances, c’est dur à dire parce qu’on ne les voit pas concrètement. Par exemple, sur la vaccination, les deux semaines où on n’a pas eu de données on ne sait pas si c’était une résistance, c’est-à-dire de la mauvaise volonté ou l’envie de cacher, ou alors si c’était juste des lourdeurs administratives qui font qu’il a fallu deux semaines pour publier les données. C’est très dur de le dire. C’est comme pour les variants. Aujourd’hui on sait que le variant anglais est devenu majoritaire en France, c’est ça qui a un peu provoqué la vague qu’on a connue ces dernières semaines, mais en janvier c’était bien moins évident et nous, on voulait qu’ils publient les données sur les variants. C’est-à-dire combien on a de cas de variant anglais aujourd’hui ? Combien on a de cas de variant sud-africain, de variant brésilien et de la souche classique. Ça aurait permis de voir le début de l’exponentielle du variant anglais et de prédire un peu, d’anticiper un peu mieux. Ces données-là sont collectées par Santé publique France depuis le 25 janvier, donc ils les ont depuis le 25 janvier, on les a obtenues le 8 mars. Un mois et demi, dans une épidémie, c’est super long, c’est déjà trop tard, le 8 mars il y avait déjà 70 % de variant anglais, c’est fini, c’est bon, c’est acté ! Là c’est pareil. On les a demandées quasiment chaque jour, on a envoyé des mails, on a fini par faire une demande administrative d’accès aux données à laquelle le gouvernement, l’administration a 30 jours pour répondre. Finalement ils les ont publiées le 8 mars.
Est-ce que ce sont les lourdeurs administratives, est-ce que c’est de la mauvaise volonté ou des blocages politiques, franchement je ne sais pas, c’est dur de le dire.

Claire : Et sur les bases de données éventuellement incomplètes ou pas folles quoi ?

Guillaume Rozier : Sur l’épidémie on a quand même des données qui sont exhaustives, qui sont de bonne qualité, assez complètes, il y a quand même un réel effort qui est fait. Par contre, des fois on a des erreurs, pas des erreurs mais des bugs ou autres. Ça peut être des données qui ne sortent pas à cause de bouchons, ce qu’ils appellent des bouchons informatiques, de genre de choses. Après ça peut être des trucs bêtes comme un changement de séparateur dans les fichiers csv, c’est tout bête, mais vu que maintenant c’est adapté pour détecter automatiquement, si ce n’est pas fait ça peut casser tout le pipeline de données, c’est un peu bête, ou des changements dans les formats de dates, ce genre de choses. À des moments on a des erreurs un peu plus graves, comme des échanges dans les données, c’est-à-dire imagine dans les décès tu vas avoir les hospitalisations, ou l’inverse, mais que sur certaines périodes de temps. Du coup c’est impossible de détecter l’erreur, en tout cas, pour nous, de la corriger. Oui ça arrive, heureusement c’est rare. Je tiens à préciser que ça reste quand même relativement rare. Mais on a des données complètes sur l’épidémie.
Par contre, en dehors de l’épidémie, ce n’est pas forcément le cas. Je n’ai pas d’exemple en tête, mais tu regardes les jeux de données publiques, franchement il m’est arrivé de tomber sur des trucs quasiment inexploitables. Tu regardes l’INSEE qui publie la mortalité, il y a des trucs franchement quasiment inexploitables. Par exemple les données ne sont pas agrégées, en fait ils publient le nom, le prénom, etc., de la personne décédée de façon individuelle, donc tu as des millions et des millions de fichiers qui pèsent je ne sais pas combien, du coup ils font un fichier par mois ou par année. Au niveau informatique c’est l’horreur parce que tu es obligé de tous les télécharger un pas un, de tout rassembler, d’agréger, alors qu’ils pourraient très bien faire une agrégation et juste le compte. En fait, ce qui est juste intéressant pour nous c’est de savoir la somme sur un mois ou sur un an, sur une semaine ou sur un jour, plutôt qu’avoir des fichiers avec des dizaines de milliers de lignes pour chaque jour.

Claire : Pour CovidTracker combien avez-vous de fichiers par exemple ? Je sais pas si je peux avoir le GitHub.

Guillaume Rozier : Là je peux difficilement dire. On en a des dizaines de milliers. Si tu veux vois le code, va plutôt voir celui de Vite Ma Dose qui est plus joli.

Claire : Il est plus joli !

Guillaume Rozier : On a une organisation qui s’appelle CovidTracker, une organisation GitHub. Ça c’est mon dépôt, c’est Rozier Guillaume, Vite Ma Dose je n’arrive pas à lire. En fait c’est covidtracker/vitemadose. On a une organisation GitHub CovidTracker, dedans il y a tout et le code est un peu mieux.

Claire : Du coup, c’est juste le repository qui s’appelle comme ça ou je peux le trouver depuis Vite Ma Dose ?

Guillaume Rozier : Non, pas sûr. Si tu tapes CovidTracker dans la barre de recherche de GitHub, je pense que tu peux tomber sur l’organisation assez facilement. Sinon tu tapes github.com/covidtrackerfr [11] et là tu as tous les dépôts de l’organisation. Vite Ma Dose c’est le back, ce sont les algorithmes de scraping qui vont détecter les rendez-vous de vaccination, c’est un genre de scraper, etc. Tu as des algorithmes qui vont détecter les rendez-vous de vaccination sur la plateforme de réservation.

Claire : OK. Du coup il y a un peu plus de fichiers, j’imagine, pour Doctolib que simplement recenser les chiffres.

Guillaume Rozier : Ça dépend ce que tu appelles les fichiers. Est-ce que ce sont uniquement les données ?

Claire : C’est plus les données pour le coup. Tu parlais du fait qu’ils faisaient un fichier par personne.

Guillaume Rozier : Ça c’est pour l’INSEE, du coup je n’utilise pas. L’INSEE, heureusement pour les trois dernières années, a fait les agrégations exprès pour étudier, en fait, l’impact du Covid, mais ils ont juste mis 2021, 2020, 2019, 2018 aussi je crois. Pour nous c’était évidemment mieux de regarder les années d’avant, mais moi je n’ai pas eu le temps de m’adapter, c’est un travail plus important pour récupérer dans les 20 ou 30 dernières années. Ils ne l’ont pas fait. Sinon, sur l’épidémie, honnêtement les données sont assez fines.

Claire : Vous dites à chaque fois que CovidTracker et toutes les plateformes, surtout CovidTracker du coup, ne se contentaient pas de recenser des données brutes, mais qu’il y a aussi de la pédagogie à faire à travers les chiffres. Par exemple, si on a un lundi férié, ça va absolument plomber toutes les moyennes après ; que parfois il y a des retards dans les remontées et, du coup, ce sont les moyennes lissées qu’il faut regarder et pas le chiffre chaque jour. Comment est-ce que dans un code, finalement, on corrige des biais ? Ça passe par quoi ?

Guillaume Rozier : C’est-à-dire sur les données ?

Claire : Techniquement, comment est-ce qu’on corrige les données en fait ?

Guillaume Rozier : Techniquement la meilleure arme c’est la moyenne mobile, au niveau du code ça reste, ça restera la meilleure arme pour contextualiser des données. Après, ça devient presque du traitement du signal, c’est comment débruiter un signal qui est bruité pour en retirer le sens réel et pas le bruit qui se rajoute. Une des méthodes les plus simples c’est de faire une moyenne mobile, donc on remplace chaque point par la moyenne des x jours autour de ce jour-là de manière à vraiment comprendre la tendance de la donnée et pas le bruit qui vient se rajouter. Tu l’as cité, par exemple les décès hospitaliers, on a beaucoup de décès le lundi et très peu le dimanche. Ce n’est pas que les gens décèdent plus le lundi que le dimanche c’est qu’on a moins d’employés qui vont saisir les données dans le système informatique le dimanche que le lundi. Pareil avec les jours fériés. En fait on a un rattrapage les lundi et mardi du samedi/dimanche, etc., donc, si on regarde les décès, en fait onn a une saisonnalité. C’est-à-dire qu’on a vraiment un schéma qui se reproduit de semaine à semaine. Donc si tu fais une moyenne de sept jours, du coup à chaque fois tu prends en compte un dimanche qui est très bas, un samedi qui est assez bas, un lundi qui est très haut, un mercredi qui est normal, etc., et ça pour chaque jour. Du coup ça permet vraiment de compenser cet effet-là et de comparer ce qui est comparable.
La moyenne mobile est un des meilleurs trucs. Après, rien que le fait de faire un graphique, de faire une visualisation de données, c’est déjà de la contextualisation parce que sur un graphique tu vois ce phénomène direct. Tu vois que ça fait ça, donc tu vois que c’est stupide. Je ne sais pas si vous avez vu a séquence de LCI qui le fait, mais du coup c’est stupide de comparer un dimanche avec un lundi, tu vas avoir un creux avec une bosse.

Claire : C’est Catherine Hill [épidémiologiste et biostatisticienne], c’est ça ?, qui avait totalement allumé le journaliste, où elle disait que ça n’avait aucun sens.

Guillaume Rozier : Elle est trop drôle, Catherine Hill, on s’est appelés plusieurs fois ; elle est très crue. C’est rigolo, mais le pauvre journaliste s’est fait exploser. Bref !

Claire : En fait on peut voir que c’est déjà un choix. Par exemple j’utilise aussi TousAntiCovid, qui est donc l’application officielle, celle du gouvernement, et eux, par exemple, ne font pas ça, c’est-à-dire que toujours, le dimanche, il y a 5000 cas et le lundi il y en a beaucoup plus. C’est quand même fou !

Guillaume Rozier : Moi je trouve ça stupide. Ils le savent, je trouve ça stupide. C’est comme le nombre de cas qu’on entend tous les jours dans les médias, c’est le nombre de cas par date de remontée. Ce sont tous les cas qui ont été remontés aujourd’hui, c’est-à-dire qui ont été saisis dans la base de données aujourd’hui. Du coup, en fait, ça dépend d’un biais qui est la capacité des laboratoires à saisir les données. Il y a des jours où les laboratoires ont moins d’employés parce qu’ils sont en vacances et d’autres jours ils en ont plus. Il y a des jours où ils ne vont pas avoir le temps de remonter les données, ils vont se rattraper le lendemain, etc., donc ça varie énormément. C’est dommage parce qu’en fait on peut aussi communiquer les dates de prélèvement, c’est-à-dire tous les cas qui ont été prélevés dans le nez du patient tel jour, et là c’est beaucoup plus stable parce que ça ne dépend pas de la capacité à saisir des données puisqu’on agrège par date de prélèvement.
C’est un autre détail. Franchement, moi je trouve plus intelligent de les donner avec une moyenne mobile, donc ce sera plus intelligent, tous les jours, de donner la moyenne mobile des sept derniers jours, là c’est comparable et on n’aurait pas des cas absurdes où le dimanche tu as le journal, je ne vais poas citer de nom, d’une grande chaîne, qui te dit « il y a eu 5000 cas aujourd’hui » et puis le lundi ils vont dire « il y a eu 40 000 cas », franchement quel est le sens ? On ne comprend rien, franchement les gens sont perdus si tu fais ça.
La moyenne mobile, oui, ça fait un an que je me bats sur ça. J’ai fait un tweet qui avait fait genre 5000 ou 6000 « like » il y a un an, pour moi c’était le feu, je n’avais quasiment pas d’abonnés. Je suis un peu cru, mais c’était pour déglinguer un journaliste qui avait dit à ce moment-là — il y a un an, en mai, on était en pleine décrue de l’épidémie, en pleine baisse de l’épidémie, etc. — et il a twitté un lundi « il y a eu 150 morts, en hausse par rapport à hier de plus de 50, machin », un truc comme ça, mais en fait, c’est juste qu’hier on était dimanche. C’est rageant de voir ça, factuellement ce n’est pas faux, « aujourd’hui il y a beaucoup que décès c’est plus qu’hier » mais pour moi c’est complètement trompeur parce que ça va complètement à l’encontre de la tendance générale.
Ça fait un an que je me bats là-dessus et visiblement certaines personnes n’ont toujours pas compris. C’est un peu dommage !

Claire : Est-ce que ce sont des choix éditoriaux, on peut les appeler un peu comme ça, que toi et l’équipe de CovidTracker avez pris seuls ? Ou bien est-ce que sont des choses pour lesquelles vous avez pu échanger avec des épidémiologistes, des médecins ? À quel point c’est un travail personnel, à quel point c’est un travail collectif et transversal avec d’autres disciplines ?

Guillaume Rozier : C’est complètement en discussion, en concertation et c’est mouvant aussi. C’est-à-dire qu’aujourd’hui on ne fait pas la même chose, on n’utilise pas exactement les mêmes méthodes qu’il y a un an. Ces choix-là ont évolué en fonction de la connaissance, en fonction des discussions qu’on a pu avoir avec des médecins, avec des épidémiologistes, aussi avec des gens qui ne connaissent rien. C’est très important aussi de voir comment une personne lambda va interpréter le truc.
Pour répondre à ta question, on discute beaucoup avec des épidémiologistes, avec des médecins, en l’occurrence avec Catherine Hill on s’est appelés une fois, elle m’a fait un cours d’épidémiologie pendant deux heures, elle m’a passé ses diapos, elle avait 200 diapos, elle m’a passé ses 200 diapos au téléphone. Elle m’a appris plein de trucs en épidémiologie. Donc oui, on discute beaucoup. Maintenant, on ne remplace pas les épidémiologistes, on reste à notre place. On fait très attention, on se renseigne et on évite de faire ce que eux font. On laisse l’Inserm et l’Institut Pasteur faire leurs modélisations. On ne peut pas être meilleurs qu’eux là-dessus, c’est impossible.

Claire : Ce qui est hyper-intéressant aussi, ne serait-ce que par rapport au public, parce que souvent, quand on vous voit dans les médias, on vous demande aussi de commenter les chiffres alors que, de base, ce n’est peut-être pas forcément votre métier. Comme si, en fait, justement détenir le pouvoir par la donnée, détenir le savoir par la donnée, vous donniez finalement une expertise là-dedans.

Guillaume Rozier : C’est très intéressant. On va commenter. BFM, etc., quand ils me font venir – c’est pour ça que j’y vais de moins en moins – c’est vrai, en gros, c’est pour donner la vérité, c’est un peu comme ça, ils me font venir pour donner le savoir : où en est l’épidémie, est-ce que c’est grave, dans quels territoires, etc.? Oui, c’est clair. Après les chiffres ça reste assez factuel, on n’a pas besoin de compétences en épidémiologie pour analyser ce genre de trucs qui est assez basique. Je ne pense pas que ça nécessite des compétences en modélisation.

Claire : Ça marche. Là-dessus je vois qu’il est 45 ; c’est pile-poil la limite qu’on s’était fixée. Maintenant, si vous êtes toujours là et si vous avez des questions à poser à Guillaume Rozier. On va déjà en reprendre, j’en ai vu passer une ou deux plus haut. N’hésitez pas parce qu’on a assez peu abordé les aspects techniques, j’imagine que vous avez aussi envie d’en parler… Après je ne sais pas si les gens qui sont dans la salle sont plutôt des étudiants à 42 ou des gens qui l’ont su par d’autres canaux. Bref ! C’est un peu ouvert maintenant.
Il y a quelqu’un qui demandait quelles étaient les limites ou les défauts éventuels de CovidTracker.

Guillaume Rozier : Les limites techniques, vraiment au niveau technologie ou au niveau expérience utilisateur, fonctionnalités, etc. ?

Claire : Exploitation de données.

Guillaume Rozier : Exploitation des données.
On a des limites qui sont liées aux données en elles-mêmes, c’est-à-dire qu’on n’a pas des données aussi fines qu’on aimerait avoir pour plusieurs raisons.
La première raison c’est que des fois on ne sait pas, on ne sait pas pourquoi.
La deuxième raison c’est que des fois se posent des problèmes de confidentialité et de respect de la vie privée. Par exemple, on n’a pas les données sur le nombre de cas par commune, une échelle trop fine. On a uniquement les cas par département, d’une manière fine, c’est quand même une maille très large. Sinon, si on a des mailles plus fines, il y a une maille qui s’appelle IRIS [Îlots Regroupés pour l’Information Statistique], la maille Iris c’est environ 4000 habitants, c’est en gros la commune en milieu rural ou alors le quartier en zone plus dense, mais on a des données qui sont imprécises volontairement, c’est-à-dire qu’on a des tranches de valeur. On ne sait pas combien de cas il y a eu, mais on sait entre combien et combien de cas il y a eu, et ce sont des tranches très larges. On raisonne en taux d’incidence et c’est entre 0 et 100, entre 100 et 250, entre 250 et 500, quelque chose comme ça, la maille est très large. En fait, en général une commune reste dans la même tranche très longtemps, genre une commune va rester entre 250 et 500 pendant plusieurs semaines et après, si l’épidémie baisse elle va passer à moins de 250. En fait, on se retrouve avec un indicateur presque binaire, pas binaire parce qu’il y a trois ou quatre valeurs possibles, du coup l’intérêt est limité. Oui, là c’est clairement une limite parce qu’on ne peut pas comprendre très finement l’évolution de l’épidémie au niveau géographique. D’autres pays le font, par exemple en Grande-Bretagne ou en Allemagne, ils peuvent faire des cartes très précises, vraiment une maille géographique très fine, donc très détaillée, avec des dégradés de couleurs qui sont immenses, donc on peut bien comprendre la situation finement. En France Santé publique France peut faire parce qu’ils ont les données, mais nous, en tant que citoyen on ne peut pas le faire parce qu’ils ne publient pas les données pour les raisons évoquées.
Je ne sais pas si tu veux préciser un peu plus ta question ou si tu veux aller sur d’autres domaines.

Claire : Je ne sais pas. Ça a l’air bon. Il y a plusieurs personnes qui écrivent. Il y avait une autre question technique, je me dis que si plusieurs personnes ont des questions techniques ce serait bien de les visionner.
Ça te prend combien de temps tous les jours ?

Guillaume Rozier : Ça prend du temps ! Je ne dors plus.

Claire : Tu n’en dors plus ! C’est ça ?

Guillaume Rozier : Surtout je ne regarde plus de séries, en fait, je ne vais plus voir des trucs, je ne vais plus dans les bars, je ne vais plus au cinéma, ça c’est comme tout le monde. Ça dépend de ce que tu comptes.
Là je vois la gestion du site. La gestion du site ça prend du temps, mais ça ne prend pas tout.
En fait il y a la partie développement web, donc développement de nouvelles fonctionnalités. Il y a la partie maintenance web, admin-système, devops. Il y a la partie développement data, c’est-à-dire développer, enfin améliorer les algorithmes qui vont télécharger les données, qui vont traiter les données, qui vont générer des graphiques, qui vont faire tout ça. Par exemple on ne parlait pas du tout de vaccination en décembre, aujourd’hui on a plus les yeux rivés sur VaccinTracker que sur CovidTracker. Les données évoluent en permanence,elles ont la même problématique, etc., donc il faut faire évoluer cette partie-là aussi.
Donc développement web, développement data, ce sont les deux grosses parties pour le site, donc ça prend du temps, oui. Maintenant je délègue, il y a des gens, notamment en développement web. Par exemple c’est moi qui avais fait la première version de Vite Ma Dose, en fait ils ont tout refait et maintenant je ne touche quasiment plus à rien. Il y a des gens qui aident, plusieurs personnes sur le front, plusieurs personnes sur le back, etc., il y a des devops, il y a des graphistes, maintenant ils se débrouillent, donc ça me prend moins de temps.
Par contre, ça me prend du temps pour coordonner les gens parce qu’il faut coordonner 50 personnes. Là on a un meet à 21 heures, parce que vous avez dû entendre que la vaccination est ouverte aux plus de 18 ans, depuis le 12 mai, pour les créneaux de vaccination du jour et du lendemain, donc les créneaux qui restent, qui ne sont pas pourvus.

Claire : Normalement il faut dire si on a des comorbidités ou quoi sur le site, il va falloir tout lever ?

Guillaume Rozier : Oui, voilà. Nous, on ne gère pas la partie vraiment réservation, on laisse ça à Doctolib, mais on va quand même s’adapter. Il y a plein de trucs à faire, on va faire plein de trucs cool, mais il faut qu’on se coordonne, donc il y a un meet-up après, ça me prend du temps de coordination pour que tout le monde travaille dans la même direction, pour motiver les gens et tout. Donc c’est très dur de compter.
Plusieurs heures par jour, des week-ends entiers et, en plus de ça, il faut que je sois au courant des chiffres, que je fasse l‘analyse de la situation ce qui me prend beaucoup de temps, tous les soirs ça me prend au moins une demi-heure, une heure et il faut que je communique. Je communique en général sur Twitter ce que je pense de la situation. Il y a des médias qui m’invitent pour en parler à la télé ou ailleurs, il y a des médias qui m’invitent pour faire des portraits, pour que j’explique les coulisses de CovidTracker, que j’explique l’initiative. Donc si on prend tout ça c’est dément. Là j’ai passé l’après-midi dans les médias parce que mon employeur a été hyper-cool. Je n’ai pas passé l’après-midi dans les médias, mais aujourd’hui TF1 est venue pour filmer pour le 20 heures, France2 est venue pour filmer pour le 20 heures, j’ai fait Par Jupiter ! pour France Inter et après ta vidéoconférence. Normalement je bosse. Mon employeur a été cool cet après-midi, il m’a dit « tu peux faire un ou deux trucs de côté ».

Claire : Ils doivent être contents quoi !

Guillaume Rozier : Oui, aussi. Ils estiment que c’est un projet d’utilité publique, ils estiment un peu aussi que, finalement, leur contribution dans l’épidémie c‘est de me laisser souffler, donc ils m’autorisent à travailler sur CovidTracker quelques heures par semaine dans le cadre de mon job, rémunéré par ma boîte, donc c’est très cool ça permet d’allier un peu mieux les deux.
Clairement ça prend plusieurs heures par jour et des fois les week-ends aussi. Je pense que ça répond à la question.

Claire : Il y a quelqu’un qui demandait ce que tu prévois pour l’après Covid, par exemple un nouveau projet de données ouvertes. Ce que je n’ai pas précisé mais que je trouve aussi intéressant de préciser par rapport à ça c’est que, à la base, tu n’es pas forcément un militant de l’open source ou de l’open data c’est petit à petit que, finalement, tu t’es rendu compte qu’il y avait peut-être quelque chose à faire. Est-ce que c’est une question spécifique ou est-ce que ça la dépasse ?

Guillaume Rozier : Exact. Pour revenir juste sur la fin. Il y a un an j’étais en mode « l’open data, l’open source, c’est cool — comme tout le monde — cette idée est cool », mais sans plus que ça. Là, vraiment, d’avoir mis les mains dedans je me suis rendu compte que c’est crucial, c’est hyper-important. Ça peut apporter des choses hyper-belles.
Maintenant sur la question de ce que je prévois pour l’après Covid, je n’en ai aucune idée. Il y a un an, si on m’avait dit que j’en serais là je n’y aurais jamais cru. Franchement je n’ai aucune idée. En tout cas, j’espère que la période Covid va se terminer le plus vite possible et on n’aura absolument aucun mal à fermer CovidTracker et à fermer Vite Ma Dose. On n’aura aucun mal à appuyer sur le bouton rouge, d’ailleurs on le fera en direct sur Quotidien sur TMC.

Claire : RMF.

Guillaume Rozier : On n’aura aucun mal à le faire, avec grand plaisir. Maintenant, pour la suite, je ne sais pas, je pense qu’il y a plein de trucs hyper-cool à faire dans plein de domaines. Je ne veux pas tracer un chemin tout fait à l’avance parce que, si ça se trouve, il y a un autre chemin à côté qui est plus beau, donc je n’ai pas envie de répondre à la question, volontairement, je ne sais pas, mais j’ai hâte de voir.
C’était ce que je ferai pour l’après Covid ?, je ne sais pas, mais il y a plein de trucs à faire. Il y a plein de projets cool à faire sur la psychologie, la transition énergétique, le logement, les transports, l’alimentation, la météo, la climatologie. Franchement il y a de quoi faire.

Claire : Est-ce que tu penses que des institutions referont appel à toi ?

Guillaume Rozier : Je ne sais pas.

Claire : Soit à toi, soit à la communauté en général. Au moins ils savent que ça peut fonctionner.

Guillaume Rozier : Je ne sais pas du tout.
Il y a une question : du coup est-ce qu’il y a un débat sur les données qui sont accessibles au public ? Pour moi il ne devrait pas y avoir de débat en fait. L’État devrait tout publier sauf ce qui ne respecte pas la vie privée, évidemment. Pour moi il n’y a pas de débat.
Ah !, en interne sur les données. Oui ça commence à beaucoup bouger. J’avais été invité à une table ronde au ministère de la Transformation et de la Fonction publique il y a un mois ou deux. Donc oui, clairement, en interne ça bouge, il y a beaucoup de conseillers numériques dans les différents ministères qui sont convaincus que c’est important, le Premier ministre est convaincu que c’est important, qui a envoyé une circulaire. Je pense que ça met du temps, il y a de l’inertie parce que les ministères sont des grosses machines, les administrations sont des grosses machines qui ont beaucoup d’inertie. Je pense que là il y a un renouvellement, il y a plus de jeunes, donc je pense que c’est en train de faire bouger les lignes. Moi je sens que ça bouge en interne, je pense qu’on est vraiment en train de changer de cap et c’est cool.

Claire : Quelqu’un qui veut absolument que tu rejoignes InterHop [12] qui milite pour les communs en santé aussi bien en données qu’en logiciels.

Guillaume Rozier : Je ne connais pas. Je vais regarder.

Claire : Il se renseignera.
Je crois qu’il y avait quelqu’un qui demandait, un peu plus haut, en termes de techno comment a été codé le site en termes de front et de back.

Guillaume Rozier : Au niveau infrastructure, CovidTracker c’est hyper-léger. Le site tourne sur un VPS, donc c‘est un serveur privé OVH, mais pas une machine de guerre.

Claire : À trois euros. Un truc comme ça. Un peu plus ?

Guillaume Rozier : Non. On n’a pas un cluster. Heureusement, oui, je vous rassure, il n’est pas à Strasbourg.

Claire : Tu imagines !

Guillaume Rozier : Sinon on a des backups et tout, on a des scripts, on peut repartir facilement, enfin j’espère !
Au niveau infrastructure c’est même incroyable, le site CovidTracker est immonde, je n’ai pas peur de le dire. Je ne suis pas du tout développeur web, je l’ai vraiment créé à l’arrache et puis l’on a fait évoluer après avec la dette technique, parce qu’on a jugé que c’était plus utile de faire comme ça avec les ressources qu’on avait. C’est une base WordPress pour ceux qui connaissent, donc c’est plutôt lourd, c’est plutôt vieux, ce n’est pas ouf. Ce n’est pas le meilleur choix, mais après avec un theme custom et on a refait beaucoup de choses manuellement – je pense que ça aurait été une meilleure idée de partir sur un site statique de base, assez simple, un framework un peu à la mode ou autre – avec une base de données MySQL mais qui ne sert pas beaucoup. Elle explose très vite, du coup on cache énormément, il y a énormément de choses qui sont cachées, avec un cache CDN Cloudflare qui permet d’absorber 99 % du trafic, il permet d’absorber une dizaine de téras par mois en ce moment, donc c’est hyper-cool parce que notre serveur n’a pas besoin de délivrer ces dizaines de téras.
Donc des technos assez simples.
Vite Ma Dose, par contre, c’est une techno plus récente, c’est un framework qui s’appelle vickjs que je ne connaissais pas et qui est assez cool ; je n’ai pas trop mis la tête, mais j’ai juste codé une page ou deux.
Donc site statique très léger. Le back c’est python. Ce que j’appelle le back ce sont des scrapers qui permettent de détecter les créneaux de rendez-vous disponibles.

Claire : Les données.

Guillaume Rozier : C’est du python qu’on fait tourner aussi des instances d’OVH, qu’ils nous ont gentiment données, là ça nous coûte plus cher parce qu’on bombarde un peu, en gros on calcule à peu près toutes les deux minutes, toutes les trois minutes, on scanne toute la France, tous les centres de vaccination, ce sont de milliers et des milliers de centres sur cinq plateformes différentes. Pour chaque centre ce n’est pas qu’une requête, ce sont plein de requêtes, je ne vais pas citer les plateformes, il y a la plateforme où le back est très mal fait. Il y en a certains pour lesquels on est obligé de faire une dizaine ou une quinzaine de requêtes pour chaque centre, pour voir la prochaine disponibilité dans chaque centre. Imagine qu’il y a des milliers de centres. Donc c’est du python. Donc back python, front vickjs, TypeScript, les applis iOS c’est Swift, Android c’est Kotlin, pour l’appli ViteMaDose.

Claire : Oui parce que c’est sorti il n’y a pas si longtemps d’ailleurs je crois.

Guillaume Rozier : Il y a 10 ou 15 jours. Après vous pouvez peut aller voir GitHub, l’organisation CovidTracker de GitHub.
Il n’y a pas de base de données pour Vite Ma Dose, ça ne sert à rien, enfin on n’en a pas eu besoin parce qu‘on a dû faire très vite, en fait c’est du Jason et ça marche très bien comme ça.
Après voir si on migre vers un vrai back avec une vraie API, pourquoi pas, mais c’est beaucoup d’investissement pour pas grand-chose, j’ai bon espoir que dans un mois ou deux Vite Ma Dose ne serve plus à rien, donc est-ce que c’est nécessaire de dépenser du temps là-dedans ?, on ne sait pas.
En tout cas, si des gens sont chauds pour nous rejoindre, qu’ils n’hésitent pas. On a un espace de discussion Mattermost où on est une centaine, je peux vous filer le lien et si vous voulez aider que ce soit sur le back, sur le front, sur du graphisme, sur iOS, sur Android, sur de la com’, enfin vraiment dans tous les domaines. On va faire des notifications push sur les trois plateformes, iOS, Android, Web, avec Google Firebase, donc on commencera à faire des scripts pour notifier, par exemple – Incha’Allah, je croise les doigts – normalement le 12 vous pourrez peut-être être notifié si des créneaux sont disponibles à la réservation pour le jour ou le lendemain, qui sont donc ouverts à tout le monde. Ça peut être super cool de recevoir une notif sur l’iPhone « il y a des créneaux près de chez toi ».

Claire : Ça c’est Vite Ma Dose. Parce qu’il y a aussi un troisième service dont tu n’es pas le fondateur, j’ai oublié son nom.

Guillaume Rozier : Martin Daniel.

Claire : Martin Daniel, donc Covidliste [13].

Guillaume Rozier : Il a fait Covidliste c’est hyper-cool, c’est une liste d’attente. On réfléchit à faire des synergies ensemble, on a déjà commencé. Nous, du coup, on leur sort toutes les quelques minutes le nombre de créneaux disponibles dans chaque centre en fonction de l’échéance, donc le nombre de créneaux disponibles dans 24 heures, dans 48 heures, dans 7 jours, dans 49 jours, etc. Du coup, ça leur permet de cibler les centres qui ont beaucoup de disponibilités à très court terme. Potentiellement ces centres ont des doses qui pourraient être perdues, donc ils vont les cibler, ils vont les démarcher pour leur installer Covidliste. On est en train de faire des synergies ensemble pour essayer de s’apporter mutuellement ce qu’on peut s’apporter.

Claire : Ça marche. Quelqu’un demande si tu peux partager le lien. J’imagine qu’il parle de la plateforme. Est-ce qu’il peut préciser sa demande. Je pense qu’il parle du lien où parlent tous les collaborateurs.

Guillaume Rozier : Le lien Mattermost. Ce n’est pas complètement open bar, je préfère que ce soit des gens motivés et pas que tout le monde rejoigne le truc et que la moitié soit inactive. Je ne sais pas comment on va faire, mais je préfère centraliser un peu les gens qui sont motivés pour nous aider et pas juste pour regarder les discussions, je leur filerai le lien Mattermost avec grand plaisir.

Claire : On discutera après de comment on peut éventuellement vous mettre un contact.

Guillaume Rozier : Exact.

Claire : Je ne sais pas s’il y a encore des questions sur la démarche. Je crois qu’il y avait quand même deux messages de remerciements qu’on a un peu loupés, de personnes dont les parents ont pu se faire vacciner grâce à Vite Ma Dose.

Guillaume Rozier : Cool. Téléchargez l’appli et faites passer le mot : le 12 mai vous pourrez vous faire vacciner uniquement sur les créneaux du jour et du lendemain. Sur Vite Ma Dose, si vous trouvez un rendez-vous à partir du 12, à partir de mercredi, aujourd’hui pour mercredi ou jeudi par exemple, vous pouvez le prendre même s’il y a marqué « pas éligible », vous pouvez le prendre et aller vous faire vacciner. Donc c’est hyper-cool, téléchargez l’appli. On va la mettre à jour, j’espère que ça passera parce que les features ne sont pas encore finies, vu qu’il y a trois jours, dans Android c’est encore pire, ils mettent trois jours à valider l’appli, donc j’espère qu’on arrivera à la soumettre suffisamment tôt pour que ça arrive mercredi, mais c’est bien parti.

Claire : On croise les doigts. Est-ce que vous avez encore des questions ?

Guillaume Rozier : Oui, on est au courant, on va essayer de faire passer sans la validation urgente, c’est plus contraignant, il faut vraiment qu’ils aient un bug de sécurité, ce genre de chose. Je crois qu’il y a quand même des contraintes.
Android, je ne suis pas au courant, c’est un Google Play Store alternatif, c’est ça ? Moi j’ai iOS, mais Je crois que c’est un Play Store alternatif en gros. C’est un store alternatif, c’est open source. Je vais passer le mot, on verra si ça peut avoir un sens. OK. Je n’étais pas au courant.
Un compte Google pour le téléchargeable, tu veux dire, ou pour le suivi en continu. OK.
Ça va être cool, du coup, s’ils ne valident pas l’appli rapidement et sur Appstore c’est un peu plus compliqué.

Claire : Oui.

Guillaume Rozier : OK. J’en profite pour dire que sur GitHub il y a l’apk, je crois que c’est ça le format pour Android, donc vous pouvez le télécharger et l’installer, je ne veux pas trop m’avancer mais, je crois, juste en allant sur GitHub et en téléchargeant.
Vous pouvez aussi, mais il faut télécharger le dépôt et compiler avec Xcode et ensuite installer sur votre iPhone.

Claire : Avec apk, en téléchargeant direct ça ne se met pas à jour.

Guillaume Rozier : Oui, c’est vrai, mais en cas d’urgence, si on n’arrive pas à faire fonctionner l’appli, ça peut dépanner. Elle est passée l’appli, on peut la télécharger, c’est juste que la fonctionnalité avec les notifications n’y est pas pour l’instant.

Claire : Ça marche. S’il n’y a plus d’autres questions, on va peut-être conclure parce que je crois que tu as d’autres occupations.

Guillaume Rozier : En fait, ça c’est un peu décalé. Si jamais vous voulez prendre quelques minutes de plus, il n’y a pas de souci. En tout cas merci à tous, c’est hyper-cool.

Claire : Merci à toi. C’était trop cool de t’avoir. Comme je l’ai dit c’est cool de pouvoir en parler surtout que c’est assez actuel, donc je pense que ça a parlé à beaucoup.

Guillaume Rozier : Carrément. Ceux qui veulent nous rejoindre, n’hésitez pas. On peut voir ensemble comment centraliser les noms, que tu me files les adresses mails ou un truc comme ça pour ceux qui veulent nous rejoindre. N’hésitez vraiment pas même si vous n’avez pas de compétences spéciales, même pour organiser. Il y a plein de sujets, pour réfléchir à des fonctionnalités, il n’y a pas que du dev.

Claire : C’est ça, pas forcément devs, par exemple, au début du cursus on fait surtout du C, on n’est pas encore développeur web ou des trucs comme ça.

Guillaume Rozier : Oui, mais c’est une manière d’apprendre. Moi j’avais fait zéro web. C’est aussi une manière d’apprendre, franchement ce n’est pas trop compliqué, honnêtement c’est assez intuitif.

Claire : Donc si vous voulez vous lancer, même si tout le monde espère finalement que ce projet ne soit pas assez long pour pouvoir se spécialiser grâce à CovidTracker !

Libre à lire !

Quel rôle pour l’open data en temps de pandémie ? - Guillaume Rozier

Libre à vous ! Radio Cause Commune - Transcription de l’émission du 28 mai 2019

La vie, la mort, le logiciel libre

Émission Libre à vous ! diffusée mardi 1er février 2022 sur radio Cause Commune

Faut-il confier les radios de mamie à Microsoft et Doctolib ? - Adrien Parrot