Accès aux sources, science et logiciel même combat - Décryptualité du 20 avril

Avertissement

Thèmes Institutions Éducation Open Source/Open Science/Open Data /Données libres et ouvertes Sciences

Type d’action Conférence

Sommaire

Description
Transcription

Titre :: Décryptualité du 20 avril 2020 - Accès aux sources, science et logiciel même combat
Intervenant·e·s :: Nolwenn - Nico - Manu - Luc
Lieu :: April - Studio d’enregistrement
Date :: 20 avril 2020
Durée :: 15 min
Écouter ou enregistrer le podcast

Revue de presse pour la semaine 16 de l’année 2020

Licence de la transcription :: Verbatim
Illustration :: Tableur LibreOffice Calc - Licence CC By SA

Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l’April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

La science ouverte est un sujet de plus en plus présent dans la presse. Comme en informatique, accéder aux données et à leur traitement est une nécessité pour établir la confiance. L’exemple des erreurs d’une publication économique influente de 2010 en fournit l’illustration dans un domaine encore bien différent. La remise en cause d’un criminologue médiatique en est encore une autre.

Transcription

Voix off de Luc : Décryptualité.
Voix off de Nico : Le podcast qui décrypte l’actualité des libertés numériques.
Luc : Semaine 16. Salut Manu.
Manu : Salut Nolwenn.
Nolwenn : Salut Nico.
Nico : Salut Luc.
Luc : Qu’a-t-on au sommaire ?
Manu : Une petite revue de presse, seulement quatre articles.
Nolwenn : francetv info, « "Internet peut redevenir un bien commun si nous nous emparons des outils alternatifs aux Gafam" : entretien avec Maxime Guedj, co-auteur de Déclic », un article de Laure Narlian.
Manu : C’est effectivement une discussion, ça parle d’Internet, les géants et tout ça. C’est vrai qu’avec le moment dans lequel on est, il y a vraiment des mouvements dans lesquels on se rend compte qu’Internet est un bien commun et qu’on a besoin de le définir comme tel pour essayer de s’en emparer nous-mêmes, les citoyens, les utilisateurs ; les gens sont vraiment en train de devenir des citoyens du Web. C’est intéressant. C’est assez fun.
Nolwenn : Next INpact, « StopCovid : Cédric O saisit le Conseil national du Numérique », un article de Marc Rees.
Manu : StopCovid est une application qui est en train d’être mise en place pour suivre les contacts des citoyens. C’est supposé faire attention à notre vie privée, mais ça reste compliqué et, en période de pandémie, il faut justement discuter de la vie privée. Le Conseil national du Numérique est là pour donner des opinions là-dessus. On ne sait pas trop, on a un peu d’appréhension.
Nolwenn : Je n’ai pas trop suivi cette actualité, mais au final ils n’ont pas juste besoin de connaître les numéros de téléphone des gens et d’avoir leur position via le GPM [Global System for Mobile Communications] ?
Manu : En fait, ils ne voudraient pas forcément le faire avec le GSM, il est question de le faire avec Bluetooth. Bluetooth c’est un protocole, une manière de discuter qui est forcément localisée dans un endroit bien précis. Si on est dans le rayon d’action d’un téléphone où il y a du Bluetooth, normalement ça veut dire qu’on n’est pas loin de quelqu’un, donc ça permettrait de suivre les contacts juste par ce biais-là.
Nico : Justement, ils veulent éviter le GSM pour éviter la géolocalisation. Aujourd’hui, avec le numéro de téléphone on saurait où tu es.
Manu : C’est plutôt bon signe s’ils veulent éviter le GSM, le GPS aussi, mais ça reste un truc compliqué, ça donne quand même des indications précises : on sait qui a rencontré qui.
Nico : Numerama, « Pourquoi l’administration française a-t-elle autant de mal à remplacer Zoom ? », un article de François Manens.
Manu : Des discussions sur les outils de conférence vidéo. C’est intéressant, allez jeter un œil. Effectivement, Zoom est une application privatrice, donc c’est un petit peu énervant de savoir que c’est celle qui est la plus utilisée aujourd’hui, qui a l’air de ne pas trop mal fonctionner quand il y a beaucoup de monde.
Luc : Qui est un peu sur le grill, même complètement, parce qu’elle a des grosses failles de sécurité ; elle a de très mauvaises pratiques en la matière, donc elle s’est fait étriller de toutes parts.
Nico : Decideo.fr, « Open Data : et si la donnée partagée révolutionnait l’administration française ? », un article de Raphaël Allègre.
Manu : Ça ne parle pas de covid, pour une fois, parce qu’en ce moment, dans les articles, ça ne parle que de ça, mais d’open data c’est-à-dire le fait que les administrations devraient fournir aux citoyens et à tous ceux qui sont intéressés les données de fonctionnement qu’elles brassent en permanence. C’est déjà partagé pour beaucoup, il y a beaucoup de données ouvertes qui sont mises sur des portails en France, donc c’est plutôt pas mal, la France est supposée être pionnière en la matière, mais ça n’empêche il faut continuer, il faut pousser là-dessus et attendre, même si ça n’arrivera pas, des innovations que les citoyens ou les entreprises citoyennes vont mettre en avant, parce qu’il y a plein de choses à faire de toutes ces données .
Nolwenn : C’est bien joli l’open data, mais il faut aussi que les données soient correctes, qu’elles soient cohérentes.
Manu : Oui. Ça fait partie de ces choses où tu as une condition initiale, mais pas suffisante. Elle est nécessaire, mais pas suffisante.
Nolwenn : Ça on l’a oublié !
Manu : Ça permettra d’avancer sur autre chose, normalement, en tout cas c’est bien.
Luc : Très bien. Qu’est-ce qu’on a comme sujet cette semaine ?
Manu : On a plein de sujets, mais il y a des choses qui nous paraissent plus intéressantes. On peut parler d’une analyse économique qui est parue en 2008.
Nolwenn : 2010.
Luc : 2010. C’est une vidéo que tu as vue sur YouTube.
Manu : Oui. Qui m’a interpellé.
Luc : Faites par une chaîne YouTube qui s’appelle Science étonnante, qui fait des vidéos sur les sciences depuis fort longtemps qui, normalement, ne parle pas d’économie mais qui s’est penchée sur un cas particulier.
Nico : Le cas en question c’est une étude publiée en 2010 par de grands économistes, c’était quand même des pontes du domaine, publiée dans LE journal de référence, qui parlait de la corrélation existante, ou éventuellement existante, entre le taux de dette d’un pays et sa croissance économique. Le papier indiquait qu’apparemment, à partir de 90 % de dette, on a une croissance qui devient nulle voire négative. Ils avaient écrit tout un papier là-dessus et ça avait été repris en cœur par tous les politiques de l’époque. C’était juste après la crise de 2008 qui avait conduit à toutes les politiques d’austérité qui avaient été mises en place par l’Europe.
Manu : Conduites. En tout cas ça avait été utilisé comme une des raisons de pousser encore plus l’austérité. On ne sait pas exactement, c’est toujours compliqué de savoir, si ce papier a été la cause principale des politiques d’austérité.
Luc : Disons que la politique d’austérité correspond à une certaine obédience économique qui est celle qui domine. Ils auraient sans doute trouvé d’autres explications. Toujours est-il que cet article a été cité encore et encore.
Manu : Résultat des courses ? On a découvert en 2013 ?
Nico : Que les données étaient toutes pourries, en tout cas que les calculs n’étaient pas bons.
Manu : Mince alors !
Nico : Il y avait des bugs dans la feuille de calcul du tableur : certaines données étaient exclues, les calculs de moyennes étaient bizarres et un étudiant n’arrivait pas à reproduire, à partir des seules données, la réflexion qui était faite par les auteurs et les chiffres à la fin, donc il a écrit aux auteurs en leur demandant « est-ce que vous pouvez nous communiquer votre document de travail ? » En auditant la feuille, le tableur, il a vu toutes les erreurs, les approximations, les moyennes qui étaient calculées bizarrement. Donc il remettait en cause, complètement, la conclusion qui avait été publiée à l’époque.
Nolwenn : Quand on nous sort les statistiques, c’est bien de savoir comment on fait les statistiques !
Manu : Il semblerait que les auteurs ne savaient pas très bien, oui effectivement.
Luc : Le cas est intéressant, il faut regarder cette vidéo [1] notamment parce qu’il y a plusieurs types de questions et des questions pour lesquelles il n’y a pas de réponse où il sous-entend sans s’avancer, et je comprends qu’il ne le fasse pas, que les auteurs de cette étude aient eu un objectif, aient bidouillé les données pour atteindre leur objectif. Mais il y avait clairement une erreur dans la feuille de calcul où ils n’avaient pas sélectionné l’ensemble des données pour calculer leur moyenne. On voit comment cette étude qui faisait référence était finalement sérieusement trouée, sans avoir de moyens d’aller revérifier.

Or, Nolwenn, c’est normalement le principe de la science de pouvoir recommencer ?
Nolwenn : Normalement le principe de la science, justement quand on publie un article, c’est de pouvoir reproduire les données de l’article. Pour ça on a besoin de savoir d’où viennent les données, comment elles ont été produites, comment on a fait certaines sélections et certaines exclusions. On a besoin de tout un tas de paramètres. On a besoin aussi, par exemple, de savoir quel a été l’outil utilisé pour faire les calculs statistiques. Là en l’occurrence il s’agit d’Excel ma si ça aurait pu être R ou Python. Il en existe quand même quelques-uns dans le monde scientifique. J’en ai cité deux qui sont libres parce que ce sont ceux que je connais et, en plus, on fait Décryptualité, donc il faut bien citer les outils qu’il faut.

Après, ce qu’il faut aussi savoir, c’est que généralement les articles scientifiques sont soumis à des journaux qui proposent une relecture par les pairs. La relecture par les pairs, c’est quoi ? C’est : j’ai un article, je veux le soumettre à un journal, je le propose à l’éditeur. L’éditeur commence déjà par lire l’article pour savoir si ça va rentrer dans sa ligne éditoriale ou non. Si ça rentre dans sa ligne éditoriale, il va me demander qui j’aimerais avoir comme personne pour relire mon article et qui je n’aimerais pas avoir ; il y a les deux. Après, c’est à l’éditeur de choisir qui va relire l’article. Généralement il va sélectionner des personnes, envoyer l’article et là, les personnes vont pouvoir décortiquer l’article point par point, essayer de voir les figures, essayer de reproduire les résultats, essayer de recompiler les programmes. À partir de là ils vont me faire des retours, parfois ça peut prendre un an, deux ans, trois ans pour publier un papier parce qu’il y a des points qui pèchent un peu et il y a besoin revenir dessus. Parfois ça peu être juste les données sont bien là, les résultats sont bien là, mais on aimerait bien avoir un petit peu plus de données pour avoir des résultats un peu plus fiables, parce que là ça manque de données.
Luc : Ça c’est dans le monde idéal, parce que ça ne se passe pas toujours aussi bien. Il y a notamment pas mal de questions qui ont été posées dans plein de domaines, notamment, je me souviens dans la psychologie expérimentale avec plein d’études où, à priori, on n’arrivait pas à reproduire les résultats ou alors la méthodologie n’était pas bonne parce que ça portait sur un nombre de cas bien trop faible pour en tirer des conclusions.

On a également la course à la publication puisque, pendant des années, on a demandé aux universitaires de prouver qu’ils travaillent en publiant plein de trucs.
Nolwenn : Publish or perish !
Luc : Voilà. J’ai un copain qui est dans le domaine médical, qui a fait des études très avancées qui est maintenant dans un CHU et qui m’expliquait que quand il a fait sa thèse il était noyé sous des centaines d’articles qui se ressemblaient beaucoup parce que les gens pondent un article avec un vrai travail de fond et après ils font des petites modifications pour changer légèrement l’angle, pour pouvoir sortir x publications pour montrer qu’ils sont efficaces.
Manu : C’est du feuilletonnage. On dirait du Balzac.
Nico : On en arrive des cas extrêmes comme on a eu dans l’actualité récemment avec certains chercheurs-médecins qui publient quasiment un papier tous les deux jours. On se demande comment ils sont capables de faire ça. Effectivement, ils sont considérés comme les meilleurs médecins de France parce qu’ils sont numéro un en publication. Mais publier un papier par jour, ce n’est pas possible quoi !
Luc : Je ne vois pas de qui tu parles !
Nolwenn : Je ne veux pas jeter le pavé dans la marre, mais quand tu es le chercheur et que tu publies en plus dans ta maison d’édition, c’est un peu facile.
Nico : En plus !
Luc : Quel rapport, quel lien on peut faire avec l’informatique et notamment l’informatique libre ?
Nico : On a les mêmes problèmes dans le monde du Libre en particulier avec les licences libres et les quatre libertés, le besoin de reproductibilité et être capable d’aller voir d’où vient un logiciel, qu’est-ce qu’il contient, etc. Si on vous donne juste un binaire, vous ne savez pas ce qu’il y a dedans, vous n’êtes pas capable de savoir ce que ça fait réellement, ce qui se cache derrière, est-ce qu’il y a des fonctionnalités cachées ou autres. Donc a besoin d’avoir le code source. On a besoin de savoir recompiler le logiciel, parce que si on vous donne un code source mais que vous êtes incapable d’en faire quoi que ce soit ! On peut par exemple penser à APB, on a un code source, mais…
Manu : AP quoi ?
Nico : APB. Admission Post-Bac, qui était un logiciel de tri des élèves pour les études supérieures, eh bien on a un code source, mais on est incapable de le compiler, on ne peut pas l’exécuter, on ne sait pas ce qu’il fait. On peut essayer de vaguement comprendre, mais on ne sait pas le rejouer derrière. On a aussi besoin d’avoir la preuve que l’outil qui est utilisé à la fin correspond bien au code source de départ. Sinon c’est trop facile de vous dire « voilà le code source, voilà un binaire », en fait le binaire ne correspond pas au code source. Vous n’avez pas la preuve que l’un est issu de l’autre. On a besoin des trois étapes.
Manu : Là encore le code source est nécessaire mais pas suffisant.
Luc : Il faut aussi qu’il y ait des gens qui prennent le temps de faire ce boulot-là. En sciences, comme Nolwenn l’expliquait, on a des gens qui vont relire les articles ou des étudiants, comme notre cas, qui vont essayer de reproduire et de retrouver les résultats.

On avait le cas de la faille Heartbleed [2] qui avait fait couler beaucoup d’encre et dont on avait beaucoup parlé.
Manu : Une faille de sécurité dans les navigateurs.
Luc : Voilà. Sur un petit logiciel libre utilisé par le monde entier, qui a été utilisé par des millions et des dizaines de millions de sites, où, en fait, il y avait une faille. Il s’est avéré que tout le monde utilisait ce truc-là sans se poser de questions, personne n’avait pris le temps d’aller regarder le code source de ce truc absolument fondamental, essentiel.
Manu : Ça reste une problématique globale : à un moment donné, même si on des éléments de vériafiabilité qui sont là, qui sont disponibles, eh bien on ne vérifie pas tout. On n’a pas le temps humain de tout aller auditer, donc on va faire confiance.
Luc : Il faut faire confiance. On peut aussi faire aussi confiance à ses ennemis. Dans n’importe quel milieu humain il y a toujours des gens qui sont farouchement opposés les uns aux autres. Du coup, quand on va donner les sources de son travail, on peut attendre de ses adversaires qu’ils soient sans pitié, qu’ils aillent chercher la moindre faille, du coup ça force à être plus efficace.

Après ça, effectivement, on doit s’appuyer malgré tout sur la confiance qu’on va avoir. Dans le cas de l’article duquel on est parti, c’était une publication importante, deux économistes qui avaient très bonne réputation – après, l’économie est une disciple qui est très politique – tout le monde était parti avec beaucoup d’à priori.

Je suis tombé récemment sur un article dans un domaine complètement différent mais qui montre que ça touche tous, c’est Arrêt sur images qui a publié ça. Des gens sont allés fouiller le passé d’un Français qui est criminologue, spécialiste en tueurs psychopathe, qui a écrit pléthore de bouquins. Ils sont allés vérifier tout ce qu’il disait, en se rendant compte dans sa timeline que tout ce qu’il racontait ne tenait pas trop la route. Il s’avère qu’il en a inventé une énorme partie et ce gars-là est passé à la télé des dizaines de fois. La télé est une institution en elle-même, ce sont plus ou moins des journalistes que les gens regardent, à qui ils font confiance, or ils sont capables de donner la parole à un type comme ça qui est, pour l’essentiel de ce qu’il a raconté, un affabulateur.
Nolwenn : Oui. Mais là c’est le même problème. Il y a de l’information partout, à droite à gauche, et il faut pouvoir avoir le temps, prendre le temps de l’analyser.
Nico : Il y a tous les biais cognitifs, en particulier là le biais d’autorité, le fameux syndrome de la blouse blanche : dès que quelqu’un arrive avec une blouse blanche ou autre eh bien hop ! ça y est c’est le messie sur terre, il a forcément raison, il maîtrise sa science, son domaine. Nous ne sommes pas médecins, ce n’est pas à nous de donner un avis. Le biais d’autorité est quelque chose qui fait quand même très mal, surtout en ce moment. On le voit de plus en plus et il faut vraiment de méfier de ça. Ayez toujours un regard critique sur ce que n’importe qui peut vous dire !
Manu : Une chose que je trouve particulièrement amusante avec toutes ces histoires, c’est que là on parle d’open science, de science libre ou de science ouverte, une science qui donnerait tout ce qu’elle a pour qu’on puisse la reproduire. Cette science était souvent à l’origine du logiciel libre dans sa manière de penser le monde, de se construire, de se critiquer, de s’améliorer ; il y a des règles qui permettent de reproduire et d’améliorer le logiciel libre .

Là on fait une boucle, on revient, et la science maintenant s’inspire du Libre et de l’open source d’une manière générale. La science doit présenter et doit se présenter de manière à être améliorable, vérifiable, étudiable. Il y a vraiment des principes qui font une boucle. C’est le bon moment pour s’en rendre compte parce que tout le monde en parle en ce moment : la science ouverte devient un gros sujet.
Luc : Dans un monde où on a des tiers de confiance qui ont bien du mal à produire quelque chose qui soit cohérent, dans lequel il n’y ait pas de trou, qui ne se contredisent pas a posteriori, le logiciel libre est un modèle qui donne accès aux sources. Il faut faire le boulot, mais c’est possible. Je pense que pas mal de gens pourraient s’inspirer de ça.
Nolwenn : À condition de documenter.
Luc : Oui. Et d’aller lire la documentation. On se retrouve la semaine prochaine.
Manu : À la semaine prochaine.
Nolwenn : Bonne semaine à tous.
Nico : Bonne semaine à tous.
Luc : Salut tout le monde.

Libre à lire !

Accès aux sources, science et logiciel même combat - Décryptualité du 20 avril

Description

Transcription

Un ingénieur low-tech est-il possible ?

Open Food Facts - Interview de Stéphane Gigandet lors de l’OWF 2012

De l’usager à l’algorithme : au cœur du service public dématérialisé - F(r)ictions numériques