Émission Libre à vous ! diffusée mardi 13 septembre 2022 sur radio Cause Commune


Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.

Frédéric Cochet : Bonjour à toutes, bonjour à tous, dans Libre à vous !. C’est le moment que vous avez choisi pour vous offrir 1 heure 30 d’informations et d’échanges sur les libertés informatiques et également de la musique libre.

La reproductibilité des environnements logiciels pour la recherche, ce sera le sujet principal de l’émission du jour. Avec également au programme la chronique de Laurent et Lorette Costy sur le thème « Common Voice, la voix de son maître », et également, en début d’émission, la chronique d’Antanak sur la rentrée d’Antanak. Nous allons parler de tout cela dans l’émission du jour.

Soyez les bienvenus pour cette nouvelle édition de Libre à vous !, l’émission qui vous raconte les libertés informatiques, proposée par l’April, l’association de promotion et de défense du logiciel libre.
Je suis Frédéric Couchet, le délégué général de l’April.

C’est la seconde émission de la saison 6. Dans les nouveautés, une personne rejoint l’équipe des chroniques. Son nom ? Il vous sera révélé bientôt et sa première chronique aura lieu mardi 20 septembre. Un indice ? Il est peut-être superflu de le préciser, mais la personne est grisée par l’idée de participer à Libre à vous !. Peut-être que cette phrase vous donnera des idées.
Nous vous proposons également de suggérer des sujets pour notre émission de radio sur les libertés informatiques, voire la possibilité d’intervenir ou peut-être même de préparer et animer un sujet principal. Plus de détails sur le site libreavous.org, partie « Actualités ». N’hésitez pas à nous contacter, nous sommes là pour vous aider et, si besoin, chasser vos doutes et vos craintes. Pour nous contacter, rendez-vous sur le site libreavous.org ou, par courriel, à contact chez libreavous.org.

Le site web de l’émission c’est libreavous.org. Vous y trouvez une page consacrée à l’émission du jour, avec tous les liens et références utiles et également les moyens de nous contacter. N’hésitez pas à nous faire tout retour ou nous poser toutes questions.

Nous sommes mardi 13 septembre 2022. Nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.

À la rédaction de l’émission, la reine de la réalisation et de l’animation radio et, sans doute pour longtemps encore, ma collègue Isabella Vanni. Bonjour, Isa.

Isabella Vanni : Bonjour Fred. Bonne émission.

Frédéric Cochet : Merci. Nous vous souhaitons une excellente écoute.

[Jingle]

Chronique « Que libérer d’autre que du logiciel ? » d’Antanak sur le thème « La rentrée d’Antanak »

Frédéric Couchet : « Que libérer d’autre que du logiciel ? » C’est la chronique d’Antanak. Isabelle Carrère et d’autres personnes actives de l’association Antanak se proposent de partager des situations très concrètes et/ou des pensées mises en acte et en pratique au sein du collectif. Le reconditionnement, la baisse des déchets, l’entraide sur les logiciels libres, l’appropriation du numérique par toutes et tous.
Le sujet du jour, c’est l’actualité ! C’est la rentrée d’Antanak. Bonjour Isabelle.

Isabelle Carrère : Bonjour Fred, bonjour à tous.

Oui, tout à fait. Comme c’est la rentrée, nous ne traitons pas qu’un seul sujet aujourd’hui. On n’a pas vraiment eu le temps de réfléchir à ce qu’on avait envie de mettre en avant, ce sera pour le mois prochain. Du coup, on s’est dit qu’on allait faire un petit point : où est-ce qu’on en est, les actualités, et ce qui va être prioritaire pour cette rentrée.

La première chose, c’est qu’on a déjà fait un événement, tout début septembre, avec une organisation qui a été faite pour des étudiants et étudiantes. Ça nous confirme bien les besoins constants d’ordinateurs reconditionnés : on a donné en une seule fois plus de 35 ordinateurs ! On était en contact avec des gens de l’université de Paris 8 Saint-Denis, des gens adorables qui nous ont aidé à monter cette opération et également des gens d’une mutuelle, la Macif pour ne pas la citer, qui avait décidé, à chaque fois qu’un étudiant ou une étudiante versait une adhésion à Antanak, d’abonder sur le même montant. Plutôt pas mal ! Ça représente quand même une petite somme pour nous. C’est quand même intéressant de pouvoir payer son loyer, l’électricité et les quelques matériels qui sont nécessaires pour le reconditionnement, donc, c’était vraiment bien. En plus c’était tous les mêmes ordinateurs, on avait reçu un don très sympathique d’une entreprise qui avait fait vraiment un très joli travail, la DSI avait bien travaillé pour écraser elle-même les données.

Frédéric Couchet : La direction des services informatiques.

Isabelle Carrère : Merci, Fred, heureusement que tu es là !

Frédéric Couchet : Tu croyais que je ne t’écoutais pas !

Isabelle Carrère : Ah non, je n’ai pas pensé ça ! Tu es là pour me rappeler qu’effectivement, parfois, on utilise des acronymes et puis on n’est pas assez transparent et partageant.

Donc on a installé, évidemment, une distribution libre, de mémoire je crois que les gens avaient décidé de mettre Xubuntu. On avait 35 ordinateurs identiques, 8 gigas de RAM, écran tactile, du chouette matériel pour les étudiants et étudiantes qui étaient ravis !

Donc c’est bien et ça nous fait imaginer qu’on pourrait faire d’autres événements de même nature, en groupant. C’est assez sympathique de donner à plusieurs personnes à la fois.

Par contre, on a fait le décompte pour la rentrée et on a, sur notre liste d’attente, 94 personnes, très exactement, qui nous ont demandé un ordinateur reconditionné, qui attendent qu’on les rappelle pour leur dire « ça y est, il y en a un de prêt pour toi, tu peux venir ! ». Donc ça continue ! Le premier constat de la rentrée c’est que ça continue comme avant l’été et toujours avec autant de demandes.

Sur un autre sujet qu’on a abordé ici plusieurs fois, l’écrasement des données. Je voulais d’abord remercier tous les auditeurs·rices qui m’ont envoyé des messages, j’étais vraiment touchée, je trouve ça vraiment sympathique. D’abord, ça fait plaisir de voir qu’on est écouté sur des choses, que des gens partagent ces problématiques-là pour de bon, soit dans leur quotidien, soit intellectuellement, soit politiquement, peu importe d’où ! En tout cas, c’est vraiment plaisant. Merci beaucoup à elles et eux. Pour répondre au global, même si j’ai fait, évidemment, des réponses à chacun et chacune, on n’avance pas aussi vite que j’aimerais, mais je suis peut-être toujours trop impatiente, on va finir par y arriver.

Plusieurs Antanakiens sont en train d’écrire précisément les choses, en développement mais aussi en documentation de ce qu’ils développent, pour pouvoir apporter la preuve de l’écrasement et la bonne fin des opérations, pouvoir donner quelque chose et continuer à avoir les discussions avec l’ANSSI, l’Agence nationale de la sécurité des systèmes d’information, avec qui on avait été en contact. Elle nous avait donné les coordonnées des laboratoires. Ceux-ci nous avaient dit que c’est 30 000 euros pour pouvoir faire certifier un logiciel complètement et qu’il soit aussi accepté par les entreprises de nous donner du matériel sur lequel les données ne seraient pas effacées, écrasées.

Donc, on avance, on avance tout doucement, mais on va finir par y arriver.

Le troisième sujet de rentrée c’est évidemment les permanences d’écrivains numériques publics. Comme tous les ans on poursuit nos permanences, dans notre local, pour accompagner et aider les personnes dans les démarches qu’elles doivent réaliser selon les injonctions administratives. La soi-disant dématérialisation de tout cela est plutôt une déshumanisation des relations, mais bref !, on a toujours autant de demandes, les rendez-vous sont pleins d’une semaine sur l’autre.

La nouveauté, pour la rentrée de cette année, c’est qu’on a ouvert une permanence pour une directrice d’école primaire du 18e. Elle nous a demandé de l’aider, de la soulager de tout le temps qu’elle passe pour débroussailler des sujets administratifs pour des familles, des parents, qui n’arrivent pas à s’en sortir eux-mêmes, ce qui l’empêche d’être là où elle doit et veut être avec son équipe pédagogique, peut-être aussi avec les enfants, ce qui peut être pas mal pour une directrice d’école ! Parce que les sites comme les ENT, Espaces numériques de travail, sont une trouvaille assez démoniaque. Heureusement, cette directrice est vraiment dans un état d’esprit intéressant parce qu’elle refuse de mettre dessus les notes, les appréciations, les emplois du temps, etc. Elle veut garder tout ça réellement dans le partage sur des cahiers ou dans les contacts mammifères avec les gens et les parents. Mais elle veut bien quand même, de temps à autre, faire passer un message global pour les 200 familles en une seule fois et, pour ça, se servir de l’ENT. Encore faut-il, pour cela, que les gens aient ouvert leur espace en question sans perdre les identifiants qu’on donne en début d’année, qu’ils sachent s’en servir, qu’ils puissent aller sur Internet, qu’ils veuillent le faire, etc.
Notre permanence, du coup, c’est non pas de forcer pour que qui que ce soit se sente obligé de, en tout cas expliquer, montrer que c’est faisable, possible ou pas. Discuter avec les gens de ce qu’ils peuvent ou pas faire sur ces sujets-là.

Un autre site est aussi très intéressant, qui s’appelle facil’famille, facile ! Tu parles d’un nom ! Là-dessus sont informatisées toutes les démarches sur Paris, pour toutes les crèches, les garderies, les centres de loisirs, la cantine, les études, les frais scolaires, etc. Je ne sais pas si toutes les grandes villes se sont dotées d’un tel outil, en tout cas là c’est mis en place par la DASCO, la Direction des affaires scolaires, et ça vaut son pesant de cacahuètes ! C’est bien entendu pour faciliter, comme son nom l’indique, les démarches, centraliser toutes les données. D’ailleurs, je ne sais pas où ces données sont stockées ! Ça pourrait être une question à poser à la mairie. J’ai rapidement regardé. Il y a d’autres villes qui ont un même portail, du même acabit. En tout cas, ce qui est sûr, c’est que la moindre erreur ou un manque de précision dans les informations transmises peut amener à une surfacturation ou à un enfant qui ne sera pas accueilli dans un centre de loisirs, etc. Donc là aussi, pareil, cette permanence va permettre d’aider sur ces sujets-là.

Notre autre sujet de rentrée c’est la question des D3E qui n’est pas résolue, les déchets électroménagers, électroniques, électriques, etc., bref !, on produit des déchets, tout ce qu’il reste une fois qu’on a reconditionné. Je sais bien qu’il y a des élans de plusieurs, un peu partout, sur la sobriété qui devient un mot à la mode. J’espère que, pour autant, il ne sera pas vidé de son sens. On espère que ça va avoir des effets et on peut penser que de plus en plus de personnes sont sensibles à la question du réemploi et du reconditionnement, plutôt en termes de « pas de gâchis » et pas encore avec, pour beaucoup, une vraie conscience du nombre de produits de base qui constituent un ordinateur, mais c’est un petit début, on espère que ça va avancer dans ce sens-là.

Les ateliers de formation reprennent aussi cette semaine.

Sur le reste de la vie de l’association, on va rester encore un petit peu là, parce que, de toute façon, on ne nous a pas proposé de local ailleurs, donc on va rester ici, même si ça n’est pas forcément le mieux. On n’a plus de place mais on va rester là.

Je fais une annonce pour une fois, une fois n’est pas coutume, mais comme c’est la rentrée, je peux me permettre. On a enfin lancé une page sur HelloAsso, parce qu’on a eu un peu peur, en milieu d’année, juste avant l’été, avec des problèmes financiers un peu conséquents. Du coup, on s’est dit « qu’est-ce qu’on pourrait faire ? ». Donc, il y a une page HelloAsso Antanak, sur laquelle un petit coup de pouce ou une aide sont les bienvenus.

Et puis, je répète sans doute, Antanak est une asso ouverte, c’est-à-dire que qui que ce soit ayant envie de venir faire un peu du reconditionnement, de nous donner un coup de main sur une chose ou une autre, ou qui a envie de monter un atelier, etc., sera le bienvenu. Merci beaucoup.

Frédéric Couchet : Merci Isabelle. Quand tu dis que vous restez là, je vais préciser que c’est au 18, rue Bernard Dimey, dans le 18e. Le studio de la radio est au 22 donc nous sommes voisins et voisines. D’ailleurs ce vendredi 16 septembre 2022, nous organisons à la fois une journée portes ouvertes au studio, donc de dix heures jusqu’à tard, et un apéro en fin de journée, et je crois que tu seras présente.

Isabelle Carrère : Absolument, je serai là.

Frédéric Couchet : Si des gens veulent rencontrer Antanak, ils viennent au 18 rue Bernard Dimey aux jours d’ouverture – vous regardez sur antanak.com, sinon ils peuvent venir vendredi 16 septembre, notamment en fin de journée, pour rencontrer Isabelle Carrère, les gens d’Antanak et les autres animateurs et animatrices de la radio.

Isabelle Carrère : Super. Merci Fred.

Frédéric Couchet : C’est moi qui te remercie.
Nous allons faire une pause musicale.

[Virgule musicale]

Frédéric Couchet : Après la pause musicale, nous parlerons de reproductibilité des environnements logiciels pour la recherche. En attendant, nous allons écouter Sacrifice par Eli Lortomy. On se retrouve dans 3 minutes 30. Belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : Sacrifice par Eli Lortomy.

Voix off : Cause Commune, 93.1.

Frédéric Couchet : Nous venons d’écouter Sacrifice par Eli Lortomy, disponible sous licence libre Creative Commons Attribution 4.0. Eli Lortomy est un beatmaker français, je vous renvoie sur la page libreavous.org, il y a un lien vers une interview qu’il a donnée il y a quelques mois au site Auboutdufil.

Nous allons changer de sujet.

[Virgule musicale]

La reproductibilité des environnements logiciels pour la recherche, et Guix, avec Sarah Cohen-Boulakia, enseignante-chercheure, professeure à l’Université Paris-Saclay et directrice du GDR MaDICS, et Konrad Hinsen, chercheur au Centre de Biophysique Moléculaire à Orléans, CNRS

Frédéric Couchet : Nous allons poursuivre par notre sujet principal qui porte sur la reproductibilité des environnements logiciels pour la recherche avec nos deux invités, Sarah Cohen-Boulakia. Bonjour Sarah.

Sarah Cohen-Boulakia : Bonjour.

Frédéric Couchet : J’allais dire Tanguy Le Carrour — je préciserai tout à l’heure qui est Tanguy — et Konrad Hinsen. Bonjour Konrad.

Konrad Hinsen : Bonjour.

Frédéric Couchet : Je vous demanderai de préciser après. En fait il y a une troisième personne dans le studio, c’est Tanguy Le Carrour qui a grandement aidé à préparer cette émission. Tanguy travaille pour l’entreprise libriste Easter-eggs qui héberge l’April, qui nous héberge, et qui est l’un des organisateurs de l’anniversaire des dix ans de Guix, dont on parlera en fin d’émission, qui ont lieu à Paris en fin de semaine.

N’hésitez pas à participer à notre conversation soit sur le salon web dédié à l’émission sur le site causecommune.fm, bouton « chat », salon #libreavous, soit par téléphone, si vous voulez, au 09 72 51 55 46.

L’idée de cette émission est venue suite à une émission sur la science ouverte il y a quelques mois, en février 2022, dans laquelle l’un des intervenants, suite à une question sur les possibles bugs des logiciels utilisés dans la recherche et partout et si cela pouvait avoir un impact ; évidemment la réponse était oui. Cet intervenant n’est pas rentré dans le détail, il a, par contre, utilisé l’expression « reproductibilité logicielle ou reproductibilité des environnements logiciels pour la recherche ». On s’est dit qu’on allait consacrer le sujet de cette émission à ce thème-là, à la fois la reproductibilité en général pour que vous en compreniez l’importance et après, précisément, des environnements logiciels et des solutions qui existent éventuellement.

On va commencer par une présentation des deux personnes invitées, on va commencer par Sarah Cohen-Boulakia.

Sarah Cohen-Boulakia : Bonjour. Je suis enseignant-chercheur à l’université Paris-Saclay, je suis professeure des universités et je suis directrice de ce qu’on appelle un GDR, un Groupement de recherche au CNRS, le centre national de recherche.

Frédéric Couchet : D’accord. Konrad Hinsen.

Konrad Hinsen : Je suis chercheur au même CNRS, déjà cité, le Centre national de la recherche scientifique, plus précisément au centre de Biophysique Moléculaire à Orléans.

Frédéric Couchet : Et toi, Sarah, quelle est ta spécialité ?

Sarah Cohen-Boulakia : C’est plutôt la bio-informatique, mais je suis informaticienne de formation.

Frédéric Couchet : D’accord. Je précise que des gens arrivent sur le salon web, n’hésitez pas à nous rejoindre. Marie-Odile est traditionnellement présente, je la salue parce que c’est elle qui va faire la transcription de l’émission. Je rappelle que toutes nos émissions sont transcrites grâce au travail intense, important du groupe Transcriptions.

Tout à l’heure je discutais avec une personne, au studio, qui me demandait quel était le sujet de l’émission du jour. J’ai répondu la reproductibilité des environnements logiciels pour la recherche et j’ai bien senti qu’elle n’avait jamais entendu parler de ce terme. C’est vrai que moi, avant l’émission sur la science ouverte, en février dernier, je n’avais pas forcément entendu parler de ce terme précis.
Est-ce que vous pourriez expliquer la question, l’importance de la reproductibilité, déjà au sens large, dans la recherche. Qui veut commencer ? Sarah.

Sarah Cohen-Boulakia : Je veux bien tenter. Disons qu’un des grands principes de base qu’on va avoir en science ou en recherche, c’est qu’on va chercher à avoir une science qui est cumulative. On va se reposer sur des connaissances, sur des résultats qui sont préexistants. Il faut que ces résultats soient solides. Il faut qu’on puisse les reprendre, il faut qu’on puisse vraiment se baser dessus. C’est un peu comme un édifice, c’est important que les fondations soient solides. Donc en premier élément, pour la reproductibilité, c’est tout ce qui va nous permettre d’avoir des résultats qui puissent être validables par d’autres, par nos pairs, donc reproduits par des personnes tierces.

Frédéric Couchet : D’accord. Konrad.

Konrad Hinsen : C’est tout à fait ça. L’idée c’est qu’on puisse construire là-dessus, qu’on puisse vérifier ce que d’autres ont fait. Je dis souvent, en termes d’ingénierie, que c’est un protocole de correction d’erreurs. Tout le monde fait des erreurs, même avec les meilleures intentions, parfois des gens ne font pas que des erreurs mais aussi des modifications intentionnelles de la vérité, pour le dire gentiment.

Frédéric Couchet : Même dans la recherche ?

Konrad Hinsen : Oui, malheureusement, mais les histoires de fraude ne sont pas si fréquentes que ça, il ne faut pas non plus exagérer ! Je crois que l’erreur est un problème beaucoup plus fondamental, aujourd’hui, que la fraude. L’erreur existe, évidemment, toute personne qui utilise un ordinateur sait que l’informatique fait aussi beaucoup d’erreurs. D’où l’idée de regarder ce que font les autres, de passer derrière ; c’est toujours une bonne idée de vérifier. La reproductibilité c’est un peu ça, c’est l’idée qu’on puisse refaire l’expérience que quelqu’un d’autre a faite, comparer si le résultat paraît suffisamment proche pour qu’on puisse dire que c’est bon, on a fait la même chose, on a obtenu le même résultat, on peut avancer et construire là-dessus.

Frédéric Couchet : Je suppose que c’est une base essentielle pour la confiance de tout le monde dans la recherche. Tu parlais de fraude ou d’erreur, au cours des deux dernières années qu’on a vécues, il y a quand même eu beaucoup de remises en cause, en tout cas de questionnements par rapport aux différentes recherches qui ont pu être faites, etc. La reproductibilité, si je comprends bien, c’est une base essentielle pour que d’autres chercheurs et chercheuses puissent refaire les tests dans les conditions initiales, quasiment à l’identique, pour valider les résultats obtenus. C’est ça ?

Sarah Cohen-Boulakia : C’est l’idée. J’entends bien les problématiques de fraude, mais je voudrais quand même dire que les problèmes de reproductibilité qu’on a aujourd’hui, ce sont d’abord des erreurs ou des manques de traçabilité. Exactement comme un chimiste qui ferait une expérience en laboratoire et qui, du coup, va se retrouver à avoir mal noté son pH, à avoir mal noté sa température, qui veut refaire l’expérience le lendemain et elle ne fonctionne plus.

On a cette problématique en informatique avec des données qui sont de plus en plus présentes, de l’informatique qui est de plus en plus dans nos sociétés. Se pose la question de « je veux reproduire une expérience qui a été faite soit par un collègue soit par moi-même, au bout de quelques semaines, qu’est-ce qui va m’assurer que j’ai gardé la trace, que je sais comment refaire mon expérience à l’identique ? »

Frédéric Couchet : D’accord. J’ai une question sur le salon web : « Est-ce que c’est la même chose que la revue par les pairs ? »

Sarah Cohen-Boulakia : Non. C’est plus technique que ça. La revue par les pairs, c’est particulièrement important. Le fait, justement, de pouvoir relire un article scientifique, d’être relu par des collègues, ça fait évidemment partie du processus scientifique. Mais quand on vise à être reproductible, on vise plus fort que ça, c’est-à-dire qu’on demande aux pairs qui nous relisent d’être capables de reproduire la figure, qu’on aurait mise, par exemple, dans un article, sur leur propre machine. On a maintenant des éditeurs qui font cet effort de demander à ce que les auteurs fournissent ce qu’il faut pour que les pairs, qui relisent justement l’article, puissent faire tourner eux-mêmes, en toute indépendance, ce qui a tourné initialement chez l’auteur.

Frédéric Couchet : D’accord. Konrad.

Konrad Hinsen : Tout à fait. La tendance du moment c’est d’intégrer la reproductibilité dans la revue par les pairs. L’idée serait que le journal ne propose pas seulement un article, des mots et des figures sur papier ou de façon électronique, mais propose, en plus, un environnement de calcul qui permette aux gens de suivre, de refaire les calculs, d’obtenir la même chose. Après, on considère que si on a obtenu la même chose, on peut modifier un paramètre, voir ce que ça fait, jouer un peu avec ce résultat-là. C’est en cours, de premières revues s’y mettent, c’est effectivement très difficile, techniquement parlant, de vérifier un calcul.

Frédéric Couchet : D’accord. Si je comprends bien, le fait que les revues demandent aux auteurs ou autrices d’articles scientifiques, que ces personnes mettent à disposition de quoi refaire l’expérience, c’est relativement récent.

Konrad Hinsen : Je dirais que s’il y a une dizaine de journaux qui le font aujourd’hui c’est beaucoup, sur des milliers qui existent. C’est vraiment une petite goutte.

Frédéric Couchet : Une petite goutte. Pourquoi ?

Konrad Hinsen : C’est très difficile. Des revues ont tenté de s’y mettre, ont fait des annonces, les grandes surtout, et elles se sont rendu compte que ce n’est pas facile du tout. Premièrement parce que les auteurs n’ont pas l’habitude de mettre à disposition leur environnement de calcul, de documenter leurs calculs pour qu’on puisse les refaire. Après, l’évaluateur derrière, le pair qui est censé évaluer, doit avoir une certaine compétence dans le domaine, c’est normal, il doit, en plus, avoir des compétences techniques. Il n’a pas forcément le même ordinateur que les auteurs, donc il y a une friction au niveau de la différence de système informatique. Et, en fin de compte, chacun ayant fait quoi que ce soit avec un logiciel sait que ça prend du temps, ça prend toujours dix fois plus de temps que ce qu’on a estimé. Tout le monde est débordé. On nous demande de plus en plus d’évaluer les papiers des autres et, simplement, on ne prend pas le temps.

Frédéric Couchet : Sarah.

Sarah Cohen-Boulakia : Pour compléter, je pense qu’il y a aussi quelque chose d’assez étonnant, j’allais dire, dans le manque de reproductibilité en informatique. C’est-à-dire qu’on s’attend à ce qu’on ne sache pas remettre une température au même niveau. On a tous fait des expériences chimiques à l’école, des TP et, parfois, le précipité n’a pas la couleur qu’on attendait, on sourit tous et on dit à la prof « oui, c’était bleu, madame je vous promets ». En informatique, on s’attendrait à ce que, quand on fait tourner un même calcul deux fois de suite ou deux fois en une semaine, on obtienne le même résultat. On est train de faire des maths, normalement 3 + 3 ça fait 6 et c’est tout ! Ce qui est vraiment nouveau, et c’est aussi une prise de conscience qu’il y a eue chez les collègues biologistes et autres qui utilisent l’informatique, c’est que la question est plus compliquée que ça. Être capable de reproduire un résultat informatique, c’est un problème difficile.

Frédéric Couchet : D’accord. Je suppose que problème existe aussi sur les données, en fait les deux sont complémentaires.

Sarah Cohen-Boulakia : Bien sûr, c’est ça. L’idée c’est de se dire que quand tu veux que ton programme soit reproductible, il faut que tu puisses être sûr d’assurer que tu utilises les mêmes données, en gros avec les mêmes logiciels, et du coup, normalement, tu dois obtenir les mêmes résultats. Sauf que les données bougent et les logiciels bougent. Donc on a ces deux paramètres-là, si j’ose dire, qui vont vraiment changer de version dans le temps et tu ne le sais pas forcément.

Frédéric Couchet : D’accord. Konrad.

Konrad Hinsen : Tout à l’heure on a évoqué l’édifice de la science ; c’est la même chose pour les logiciels. C’est aussi un édifice avec un socle de base qui est un système d’exploitation, après il y a des couches de bibliothèques, de compilateurs, d’interprètes, de toutes sortes d’outils. Un chercheur, typiquement, se met au-dessus d’une grosse piles de logiciels et rajoute sa partie méthode scientifique.

Le problème, souvent, quand on parle d’environnement de calcul, c’est tout ce qui est en dessous, c’est tout ce qu’il faut pour faire tourner un logiciel. Ces logiciels qui font le socle de son propre logiciel, la fondation, bougent, effectivement, comme Sarah l’a bien dit. Ils bougent dans le sens que les gens corrigent des bogues, rajoutent des fonctionnalités, cherchent à améliorer. Il n’y a aucune mauvaise volonté derrière, mais, ce faisant, ils font des erreurs, ils font des modifications intentionnelles qui ont des conséquences non voulues mais parfois fort désagréables aux utilisateurs. C’est pour ça que si on pense faire le même calcul, en réalité on a gardé identique le sommet de la montagne et tout ce qui est en dessous a pas mal bougé et, en fait, on ne fait pas le même calcul, on n’a pas le même résultat. C’est ça le fond du problème de la reproductibilité computationnelle.

Frédéric Couchet : D’accord. Dans le domaine de la recherche, est-ce que vous utilisez des systèmes comme ceux que le grand public utilise ? Des systèmes libres ? Je suppose que beaucoup de logiciels sont développés « à façon », entre guillemets, c’est-à-dire dédiés par exemple à une expérience. Est-ce que des chercheurs, peut-être aidés par des informaticiens et des informaticiennes, développent des logiciels à façon ? Et est-ce que ces logiciels sont rendus disponibles pour justement tester les calculs qui ont été faits à partir de ces logiciels ? Konrad.

Konrad Hinsen : Oui. C’est très variable. Je dirais de plus en plus, effectivement, et ces derniers temps la recherche s’est beaucoup inspirée du monde du Libre, d’ailleurs la science ouverte, en anglais open science, c’est vraiment une allusion directe à l’open source. Ce n’est pas une analogie, c’est vraiment voulu de reprendre notamment les méthodes de travail.

En contrepartie, on ne peut pas dire que c’est vrai partout. Historiquement il y a eu des domaines où on a plutôt eu des logiciels faits par les chercheurs pour les chercheurs et, du coup, libres mais pas forcément publiés, genre je peux l’avoir en demandant gentiment à mon collègue. Ça peut parfois créer des tensions du type « est-ce que je vais, oui ou non, le montrer à ma concurrence ? ». Sinon il y a aussi des domaines, notamment la chimie, où il y a une forte tradition de logiciel propriétaire et la logique est très différente. Là, la confiance dans le logiciel ne vient pas du fait que c’est libre mais que c’est fait par des professionnels. Donc les gens ont plus confiance en un logiciel fait par un programmeur professionnel qu’en un logiciel fait par un thésard qui a a appris la programmation au cours de sa thèse.

Frédéric Couchet : D’accord. Je vois arriver des personnes sur le salon web. Si vous êtes sur le salon web, site causecommune.fm, bouton « chat », salon #libreavous, n’hésitez pas à poser des questions ou à réagir sur ce sujet. Je surveille le salon tout en discutant avec nos deux invités.
Tout à l’heure, je ne sais plus qui a dit que si on refait, à un autre moment, un calcul fait sur un ordinateur, le résultat peut être différent. Pourquoi ?

Sarah Cohen-Boulakia : C’est ça la reproductibilité. Normalement il devrait être le même et c’est ce qu’expliquait Konrad à l’instant. En fait, aujourd’hui, nos ordinateurs sont devenus beaucoup plus complexes qu’ils ne l’étaient avant. Avant, quand ce n’était pas reproductible, c’était des bugs, ne citons pas certains systèmes d’exploitation qui étaient franchement bogués. Aujourd’hui c’est plus, comme l’expliquait Konrad, le fait d’empiler des couches logicielles. On a toujours des systèmes d’exploitation par-dessus lesquels on va avoir des langages et on va installer ce qu’il faut pour pouvoir les utiliser, par exemple du Python, un langage de programmation ; à l’intérieur de Python, on a un certain nombre de librairies. Donc, quand on veut refaire tourner un programme qu’on a codé précédemment, on va se retrouver à devoir s’assurer que tout ce qu’il faut est installé sur sa machine. Sauf que, potentiellement, on a pu avoir une mise à jour qui s’est faite, du coup ce n’est plus exactement la même version de Python, donc une des librairies ne réagit pas comme d’habitude. Ça ne crashe pas forcément, ça ne va pas dire « attention, il y a un problème », mais ça peut changer un arrondi dans un calcul, ça peut changer un comportement logiciel. C’est un exemple un peu gros grain, mais ça fait partie des choses qui sont possibles.

Frédéric Couchet : D’accord. Konrad, as-tu un exemple précis, qui serait parlant, de ce phénomène ?

Konrad Hinsen : Je peux citer un exemple qui a fait un peu de bruit dans mon domaine, il y a deux/trois ans.

Frédéric Couchet : Rappelle quel est ton domaine.

Konrad Hinsen : Mon domaine c’est la biophysique computationnelle.

Une des techniques expérimentales qui est largement utilisée en chimie, en biochimie, c’est la RMN, la résonance magnétique nucléaire, qui sert à identifier les structures des molécules en mesurant l’environnement chimique de chaque atome. C’est une technique très bien développée, très stable, bien établie et très routinière. Il y a des scripts d’analyse de données qui produisent immédiatement les choses qu’on veut avoir.

Un de ces jeux de scripts, qui était largement utilisé, a été trouvé un peu défectueux, d’une certaine façon, il y a trois ans par une équipe. Elle s’est rendu compte que ça fonctionne effectivement très bien sous Windows, où ça a été programmé, c’est du script Python, et ça donne des résultats aléatoires sous GNU/Linux. Ils ont fouillé un peu. La cause du problème c’était que le script fait l’hypothèse que si je demande la liste des fichiers dans un répertoire, elle est triée par ordre alphabétique, ce qui est vrai sous Windows pour Python, mais ce n’est pas vrai sous GNU/Linux ; ce n’est pas garanti non plus, c’est simplement un malentendu d’une certaine façon. Comme les auteurs ont testé uniquement sous Windows, ils ne s’en sont pas rendu compte.
Maintenant c’est un problème de deuxième niveau. Dans des centaines de papiers on indique que ce script-là est utilisé mais, évidemment, sans dire si c’est GNU/Linux ou Windows qui a été utilisé, du coup on ne sait pas si on peut faire confiance au résultat. C’est un cas assez banal mais assez typique de ce genre de problème.

Frédéric Couchet : Banal mais un peu effrayant quand même, surtout pour la personne qui a développé ça.

Konrad Hinsen : Un peu effrayant, c’est sûr. Des conséquences aussi pour tous ces gens qui ont travaillé, investi beaucoup d’efforts pour utiliser ce script. Leur intérêt n’est pas ce script-là et ça fait partie du problème, leur intérêt c’est le résultat. Pour eux, c’est quelque chose qu’ils utilisent comme ils utilisent une machine à écrire, aujourd’hui ils utilisent un logiciel, comme pour leurs mails, ils ne réfléchissent pas forcément à ce genre de logiciel, ce n’est pas leur centre d’intérêt.

Frédéric Couchet : Justement, comment se passe la collaboration entre vous qui faites de la recherche et les personnes qui développent ces outils ? Peut-être que ce sont parfois les mêmes. Comment cela se passe-t-il ? On est chercheur, on travaille sur un domaine, on n’a pas de compétences informatiques, par contre on repose sur du développement logiciel. Je suppose qu’il y a, dans l’équipe de recherche, quelqu’un qui s’occupe du développement logiciel. Est-ce que vous allez regarder le code qui est écrit en Python ?

Konrad Hinsen : Pour parler de mon domaine qui n’est effectivement pas l’informatique, plutôt physicien chimiste, les petits scripts du quotidien qui encodent la connaissance du domaine sont faits par les chercheurs, pour les chercheurs, qui n’ont aucune compétence, aucune formation en programmation informatique ou autre chose.

Frédéric Couchet : Ce sont les personnes qui font la recherche qui développent, dans ce cas-là.

Konrad Hinsen : Oui. Typiquement ce sont des thésards, pour le dire très clairement. Après les collègues regardent un peu, mais c’est très informel.

À l’autre bout de l’échelle, quand on fait des calculs haute performance, quand on fait des simulations de protéines qui tournent pendant trois semaines sur un superordinateur, là ce sont des logiciels faits par des équipes qui combinent quelques chercheurs et surtout beaucoup d’ingénieurs logiciels. Il y a de tout là-dedans, entre le tout petit et le tout grand, et il faut tout ça ; ce n’est pas le même type de logiciel, le même type de travail derrière.

Frédéric Couchet : D’accord. Sarah, tu voulais ajouter quelque chose.

Sarah Cohen-Boulakia : En bio-informatique on va retrouver des choses un petit peu plus structurées, si j’ose dire, parce que c’est un domaine dans lequel — on le voit dans la création même du mot — ce sont des biologistes, des informaticiens et des gens qui sont au milieu, entre les deux, qui proviennent soit de l’informatique soit de la biologie, en tout cas qui parlent un langage commun.

Si on prend l’Institut Curie, l’Institut Pasteur, tous ces grands instituts, on va souvent avoir une direction des systèmes informatiques, une DSI, qui va gérer les aspects essentiellement d’infrastructure, s’assurer que tout le monde a une machine, que les serveurs tournent, etc. Et puis on va avoir des équipes de bio-informatique, des hubs de bio-informatique dont le métier, finalement, va être de faire l’interface avec les chercheurs de bio qui produisent des données.

On va vraiment avoir des mécanismes dans lesquels les biologistes vont dire « j’ai fait un nouveau séquençage d’un génome avec une PCR ou autre – comme on entend beaucoup maintenant, les gens sont plus habitués à ce genre de vocabulaire, entre guillemets, « malheureusement » –, comment est-ce que je fais pour assembler mon génome ? Comment est-ce que je fais pour extraire des connaissances à partir de ces données ? ». Là on a des équipes de bio-informaticiens, dont ça va être le métier, qui sont de plus en plus formés aux techniques dites reproductibles, pour faire avec l’équipe A ce qu’ils ont fait avant avec l’équipe B, par exemple.

Frédéric Couchet : Inversement, est-ce que l’équipe informatique questionne la provenance des données, l’utilisation des données, la fiabilité des données ?

Sarah Cohen-Boulakia : Oui, bien sûr. On a maintenant de plus en plus, j’allais dire, de réflexes à avoir : dès qu’on demande de l’argent ou autre pour faire de la recherche on nous demande de remplir des tas et des tas de beaux papiers. Tout le problème va être là : il ne faut pas transformer la reproductibilité en le fait de dire « oui, je vous promets, j’ai bien fait ce que j’étais censé faire ». Il faut plutôt nous aider concrètement en nous donnant à la fois des aspects infrastructurels et du manpower, des gens qui sont bien formés pour faire ces interfaces finalement d’ingénierie. C’est la condition pour avoir une science et des résultats qui sont plus reproductibles et de meilleure qualité, au sens scientifique du terme.

Frédéric Couchet : D’accord. Je vais relayer deux remarques, des questions sur le salon web : « On entend beaucoup parler de sobriété numérique, est-ce qu’il n’y aurait pas un peu de cet enjeu ici ? À force ne perd-on pas notre capacité à efficacement reproduire ? »

Sarah Cohen-Boulakia : Quand on parle de sobriété face à la reproductibilité, je vois deux points qui sont un peu contradictoires.

Le premier, et il va dans le bon sens, on peut se dire pourquoi « je veux reproduire une expérience ? ». Parce que je veux pouvoir réutiliser, je ne veux pas réinventer la roue, je veux partir de ce que d’autres ont fait. Du coup, là, on va dans le sens de la sobriété au sens où, concrètement, je me base sur ce que les autres ont fait et j’évite de refaire. Ça va dans le bon sens.

Il faut aussi avoir conscience, j’insiste sur le fait que ça va quand même dans le bon sens, que pour pouvoir refaire il faut que je stocke, il faut que je garde la trace, il faut que je sache ce que les autres ont fait. Un des enjeux aujourd’hui de la reproductibilité, c’est justement de pouvoir garder des traces un peu minimales, des traces qui me permettent de garder ce dont j’ai besoin, quitte à refaire une sous-partie des calculs dont l’enjeu est moindre, pour lesquels je sais que je n’aurai pas de problèmes de reproductibilité. Ce sont des vrais problèmes de recherche informatique en reproductibilité.

Frédéric Couchet : D’accord. Comme tu parles de garder des traces, je relaie la deuxième remarque qui est peu liée : « Travaillez-vous avec Software Heritage qui, en archivant des logiciels, aide à priori à garantir dans le temps de pouvoir reproduire des expériences dans un contexte informatique cohérent ? »

Sarah Cohen-Boulakia : Oui, bien sûr, on connaît très bien Software Heritage, très bien Roberto Di Cosmo, tout ça c’est la même communauté. C’est évidemment la même idée, cette idée de garder effectivement la trace de l’histoire même, puisque c’est ça l’héritage, des différents logiciels, de leurs évolutions et autre. Nous, nous allons rajouter une couche d’exécution. Ce n’est pas tant le code qu’il faut qu’on ait, c’est aussi le code tel qu’il a tourné à un moment donné, sous quel environnement et avec quelles données, donc vraiment où ça tourne. Dans Software Heritage il y a une partie fondamentale qui est le quoi, qu’est-ce qui tourne ? Nous, ensuite derrière, il faut que ça tourne et c’est comme ça qu’on va pouvoir construire des systèmes reproductibles.

Frédéric Couchet : D’accord. Konrad, tu voulais ajouter quelque chose ?

Konrad Hinsen : On va parler de Guix tout à l’heure, ce sera le moment de revenir sur Software Heritage parce que je pense qu’il y a un lien entre les deux. On va attendre un petit peu.

Frédéric Couchet : Je signale qu’on a parlé de Software Heritage à deux reprises dans l’émission, la dernière fois dans l’émission 134, ce n’était pas avec Roberto Di Cosmo, c’était avec Morane Ottilia Gruenpeter. On vous le mettra sur le salon web.

En attendant on va faire une pause musicale. Nous allons écouter Last Dance par The Zero Project. On se retrouve dans trois minutes. Belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : Last Dance par The Zero Project.

Voix off : Cause Commune, 93.1.

Frédéric Couchet : Nous venons d’écouter Last Dance par The Zero Project, disponible sous licence libre Creative Commons Attribution.

[Jingle]

Frédéric Couchet : Nous allons poursuivre notre discussion qui porte sur la reproductibilité des environnements logiciels pour la recherche, avec nos invités, Sarah Cohen-Boulakia et Konrad Hinsen.

Juste avant on parlait de la reproductibilité, on va revenir sur les questions informatiques et sur les solutions. Il y a un thème, dans la préparation, qui est venu assez rapidement, c’est celui de la crise de la reproductibilité. Qu’est-ce que la crise de la reproductibilité ? Sarah.

Sarah Cohen-Boulakia : Quand on dit crise, en fait derrière il y a prise de conscience. La crise de la reproductibilité, par exemple dans mon domaine en bio-informatique, mais elle a été concomitante dans beaucoup de domaines à la fois, est arrivée à un moment où, d’un coup, on s’est retrouvé en bio-informatique avec beaucoup de données disponibles, qui se sont mises à être analysées de façon un peu systématique. Ce moment-là est arrivé au moment où on a eu de nouvelles techniques pour faire du séquençage. Avant, le premier génome humain a mis des années et des années à être obtenu, beaucoup d’équipes de recherche ont dû travailler entre elles alors qu’aujourd’hui, vous l’avez vu, on séquence très rapidement un ARN pour un virus et, de la même façon, un ADN si on travaille, par exemple, sur un génome humain.

Donc on se retrouve avec beaucoup d’articles scientifiques, des centaines et des centaines, qui tous, finalement, disent, par exemple, obtenir des résultats sur un génome humain ou sur des éléments qui sont basés sur un génome, avec les mêmes techniques et puis les mêmes outils, à priori. Quand on lit l’abstract, c’est-à-dire le résumé, même quand on va dans la section méthodologie de l’article, on peut avoir des informations qui nous disent que, finalement, il s’est passé la même chose, systématiquement. Et pourtant les résultats ne sont pas les mêmes ! Et pourtant, quand on reproduit un des articles, qu’on essaye de le refaire, eh bien on ne trouve pas la même chose. Et ça ne passe pas sur un ou deux papiers, ça se passe massivement, sur des centaines et des centaines de papiers, alors que pourtant les données ont l’air clair, on nous parle de l’assemblage du dernier génome humain, les outils ont l’air clair, on nous parle de l’outil qui est associé à une machine qui fait le séquençage, tout ça a l’air clair et pourtant ça ne l’est pas.

C’est là qu’il y a eu cette crise de la reproductibilité qui est sortie même dans les journaux, le The New York Times a fait un papier, en 2009, dédié à cette problématique, montrant le nombre d’articles scientifiques, notamment en bio-informatique, qui étaient rétractés, retirés complètement, parce que, justement, on n’arrivait pas à reproduire les résultats.

Là on s’est rendu compte qu’il y avait vraiment deux problèmes de fond.
Le premier, ce sont les données. Parler du génome humain comme s’il n’y en avait qu’un unique, possible, c’était déjà une erreur, c’est-à-dire que ce qu’on appelle aujourd’hui le génome de référence il évolue, il a plusieurs versions ; si je ne sais pas sur quelle version je suis, je peux potentiellement avoir des résultats qui sont sensiblement différents.
Et puis il y a toujours ce problème logiciel. J’ai beau dire que j’utilise tel outil, avec quels paramètres ? Sur quel environnement ? Et là on retombe sur les problématiques que définissait Konrad tout à l’heure.

C’est ce qui a mis un coup de pied dans la fourmilière. Là, d’un coup, on a vu les éditeurs s’affoler, dire « oh là là, on va avoir des papiers rétractés, les gens ne vont plus avoir confiance dans les scientifiques, il faut qu’on bouge ». Il y a une dizaine, une quinzaine d’années, ça a vraiment été le coup de tonnerre qui a fait qu’on a pris conscience, qu’on s’est mis à construire des outils et à essayer de mieux former sur l’utilisation de ces outils pour avoir des solutions reproductibles.

Frédéric Couchet : D’accord. Konrad là-dessus.

Konrad Hinsen : Pour compléter un peu en dehors de la bio-informatique, comme disait Sarah, cette crise a effectivement frappé beaucoup de domaines scientifiques en même temps. Je dirais que ceux qui n’ont pas été frappés, ça va venir après, c’est un peu inévitable !

Il y a, d’un côté, le développement de l’informatique qui est responsable parce qu’on a trouvé tous ces jolis outils informatiques et qu’on s’est dit « je peux faire des tas de jolis projets de recherche avec ». Et après on s’est rendu compte que, comme pour toute méthode scientifique, il faut aussi une certaine rigueur et on ne l’a pas toujours adoptée. Je dirais que la reproductibilité computationnelle, dans la recherche, c’est essentiellement introduire la rigueur qui devrait être la norme en science et qui ne l’a pas été parce que c’était le grand enthousiasme ! On nous a donné tous ces jouets, on a joué avec, maintenant on se calme un peu et on fait un peu attention.

J’aimerais dire autre chose aussi. La crise de reproductibilité a essentiellement deux composantes et nous, aujourd’hui, on parle essentiellement de ce qu’on appelle la reproductibilité computationnelle. Il y a un autre volet qu’on ne va pas évoquer, il faut quand même le mentionner, qui est la reproductibilité statistique. Elle joue aussi un très grand rôle dans la crise de la reproductibilité dans notre domaine, notamment dans la recherche médicale, dans la recherche en psychologie, dans les sciences humaines. Le problème est aussi un peu lié à l’informatique, parce qu’on ne pouvait pas appliquer les méthodes statistiques à grande échelle sans ordinateur. L’informatique, notamment les ordinateurs personnels, ont mené à une situation où à peu près n’importe qui peut, avec deux clics de souris, faire une analyse statistique. Ça ne veut pas dire que cette analyse est raisonnée, est fondée, que la personne qui l’a faite sait ce qu’elle fait, que les données sont suffisamment bonnes pour extraire les informations qu’on veut. C’est aussi l’autre grand volet de la question de la crise de la reproductibilité qui s’est produite à peu près en même temps. Dans le terme « crise de la reproductibilité », on mélange un peu ces deux phénomènes sous une seule étiquette.

Frédéric Couchet : D’accord. Donc il y a cette crise, cette prise de conscience comme dit Sarah. Quelles sont les solutions ? Qu’est-ce qui est mis en place et, plus globalement, quelles sont les solutions pour justement cette question de la reproductibilité des environnements logiciels, pour garantir la reproductibilité des expériences, donc la confiance dans ce qui est publié ? À vous entendre, on pourrait commencer à douter de ce qui est publié dans les articles. Quelles sont les solutions qui existent aujourd’hui ? Il y a sans doute différentes solutions.

Konrad Hinsen : Il y a une solution qui a un peu motivé notre émission à la date d’aujourd’hui, qui s’appelle Guix. Et, plus largement, c’est l’idée que c’est une gestion de tous ces outils qu’on a créés ces dernières années pour maîtriser les environnements logiciels. C’est simplement un meilleur traçage de ce qu’on fait, traçage de provenance des logiciels, Sarah va me dire des données aussi, moi je ne suis pas trop dans les données expérimentales, mais le problème de fond est le même. Plutôt que dire « je fais un script avec Python 3.8, qu’est-ce que ça me dit quand je le lance ? », je dis « attention ! C’est Python 3.8 compilé avec GCC 7 ou avec GCC 6 ? » [GNU Compiler Collection]. Évidemment tout le monde se dit que ça ne devrait pas faire de différence. Oui, je suis d’accord, ça ne devrait pas, mais on a trouvé que, de temps en temps, ça fait une différence, et ce serait mieux de le noter, au cas où quelqu’un trouve, deux ans plus tard, que cette différence est importante ; il vaut mieux que je la note dès aujourd’hui. L’idée de tous ces outils qu’on est en train de développer, c’est de tracer précisément chaque étape d’un calcul. En réalité, lancer un script Python c’est la dernière étape d’un calcul, l’étape précédente c’était de compiler l’interprète Python. Si on remonte c’était, quelque part, 200 étapes, quelques-unes tapées à la main dans un ordinateur. De là on construit couche par couche un environnement logiciel.

L’idée, notamment de Guix, c’est d’enregistrer tout ça du début à la fin, pour qu’on puisse le refaire à l’identique s’il faut. Ça prend beaucoup de temps, mais on peut.

Peut-être un point pour revenir à la sobriété qui a été évoquée tout à l’heure. Évidemment reproduire, refaire et refaire donne l’impression de faire du travail pour rien, juste pour vérifier que c’est la même chose. Pour moi, le but à long terme c’est que la reproductibilité ne soit pas quelque chose qu’on évalue tous les jours, mais qu’on arrive à un stade où les outils sont tellement fiables que la reproductibilité devient la norme et on n’a plus besoin de vérifier ; on vérifie une fois par an pour être sûr que tout va bien, mais pas en permanence, comme on fait maintenant, parce qu’on est un peu stressés par la crise.

Frédéric Couchet : Si je comprends bien l’objectif de ces outils, dont Guix dont on va parler un peu après, c’est de garder des traces de l’ensemble, c’est-à-dire à la fois des différents scripts Python, mais aussi de l’environnement logiciel sur lequel ils tournent, des données aussi, à côté, pour être sûr que ce sont les bonnes données. Quelque part c’est avoir un historique, dire « cette expérience a été faite tel jour, avec telle et telle version de logiciel », de manière à pouvoir la reproduire. Techniquement on refait un ordinateur ? On réinstalle un système ? Ou, finalement, il y a des outils un peu plus automatisés qui permettent, quelque part, de revenir en arrière ? Imaginons qu’on ait un système avec une version x, mais on veut refaire l’expérience d’il y a six semaines, comment ça se passe ? Est-ce qu’on réinstalle un nouveau système ou est-ce qu’on est capable de revenir en arrière ?

Konrad Hinsen : Les deux se font. Idéalement, évidemment, on n’aimerait pas devoir réinstaller un système, mais ça se fait. Quand on n’a pas d’autre solution c’est mieux que rien !

L’idée c’est juste d’enregistrer l’historique de la construction d’un environnement logiciel avec l’optique de pouvoir le refaire à l’identique. On peut aussi se dire que si on a un environnement à un moment donné, qu’on a fait des mises à jour, qu’on peut tout à fait envisager de simplement revenir à l’environnement ancien parce qu’on a tout enregistré. On peut, dans son ordinateur, regarder les différences, regarder exactement ce qui a changé et revenir en arrière. Ce qui nécessite aussi de garder, évidemment, une archive de tout ce qu’on a fait et c’est là qu’intervient Software Heritage, qui est effectivement très important pour garder la trace du code source. Comme le savent tout ceux qui sont dans le monde du logiciel libre, la base de tout logiciel c’est le code source, pouvoir accéder au code source, lire le code source, compiler le code source. Là c’est pareil : reconstruire un environnement logiciel se fait par du code source et la toute première nécessité c’est de l’avoir enregistré, archivé.

Dans les premiers cas qu’on a eus de la crise de la reproductibilité computationnelle, le problème principal était les codes sources disparus. Des chercheurs ont écrit un script, l’ont fait tourner, ont publié les résultats et ils ont jeté le code source pour libérer de l’espace sur leur disque dur.

Frédéric Couchet : Ils ne l’ont même pas conservé !

Konrad Hinsen : C’est ça. Ils ne l’ont pas conservé, ils l’ont même jeté consciemment pour faire du ménage. C’est un état d’esprit qui a complètement disparu, ça ne se fait plus aujourd’hui.

Frédéric Couchet : Tu es sûr ? Je blague !

Konrad Hinsen : Oui, je suis assez sûr.

Frédéric Couchet : Ça parait un peu fou, parce que quand on parle de scripts, ce ne sont pas des scripts très longs, en tout cas ce ne sont pas des gigas et des gigas !

Konrad Hinsen : Non. Pour libérer de l’espace disque, ils jettent les grosses données et, accessoirement, parfois, les petits scripts à côté. En fait, la perte de l’un comme de l’autre est un problème, il faut effectivement tout archiver. C’est un état d’esprit qu’il faut développer, il faut des outils, il faut des moyens. Il y a 20 ans, on n’avait pas tout ça.

Frédéric Couchet : Ils font du ménage dans leurs scripts comme d’autres font du ménage dans leurs mails, alors que ça ne sert à rien, c’est encore pire qu’autre chose. Sarah.

Sarah Cohen-Boulakia : On a pareil sur les données. Prendre, par exemple, des données, les filtrer un petit peu, les arranger un petit peu et c’est, finalement, non pas les données d’origine mais sur des données un petit peu modifiées que je fais fait tourner les scripts et je perds une des parties, une des variantes de ces données intermédiaires que j’ai générées et que j’ai travaillées. C’est aussi un des problèmes qu’on va avoir en reproductibilité.

Il faut quand même avoir en tête qu’heureusement les outils, aujourd’hui, font le travail pour nous. Ce serait particulièrement fastidieux de garder la trace, entre guillemets, « à la main ». Si le développeur est obligé, à chaque fois qu’il fait quelque chose, de dire « sauvegarde-le-moi à tel endroit » et que c’est à lui de penser à tout, on n’en sortirait pas. Pour les données c’est la même chose. On a beau être super expert en base de données, devoir se dire, à chaque fois qu’on lance un système ou une ligne de code sur ses données, qu’on doit soi-même, en tant que développeur, prévoir où doivent être stockées ses données, comment on les numérote, ça serait particulièrement lourd.

Aujourd’hui on a des systèmes qui gèrent ce que l’on appelle la provenance, justement, des données, c’est à-dire leur transformation. Quelque part, quand on fait des analyses de données, on part de données qui sont un peu brutes et puis on va les raffiner, on va les transformer, on va statistiquement extraire un certain nombre d’informations, on va les combiner avec d’autres données. Tout ce pipeline, en termes de données, peut être aussi capté par certains environnements pour le développeur, et ça c’est nouveau.

Frédéric Couchet : OK. As-tu des noms de logiciels qui font ça ? J’ai des noms en tête, mais je ne suis pas sûr de savoir si ce sont exactement les mêmes.

Sarah Cohen-Boulakia : Les systèmes, par exemple, de workflows scientifiques vont fonctionner de cette façon-là. Ils ont ce qu’on appelle des modules de provenance qui vont, par exemple, capter ce type d’information. Au niveau logiciel, on ne l’a pas prononcé jusqu’à maintenant, je ne veux pas me faire jeter [des tomates, NdT], on a aujourd’hui quand même tous les environnements qui sont ce qu’on appelle à base de containers, dans lesquels en fait, quelque part, on prend une photo, on freeze l’état de la machine telle qu’elle est à un moment donné. Et c’est dans cet état congelé, si j’ose dire, qui n’évolue plus, qui reste tel qu’il est, qu’on s’assure qu’une expérience peut tourner au fur et à mesure. Ce sont des solutions qui marchent à un moment donné.

Si on veut reproduire à l’identique, ce que disait Konrad tout à l’heure, pour que la science avance, c’est un premier pas d’avoir l’identique. Ce qui nous importe c’est de regarder un petit peu ce qu’on appelle la robustesse d’une approche, c’est-à-dire s’autoriser à dégeler un peu les choses, à faire évoluer un certain nombre de ces logiciels, peut-être même à bouger une sous-partie de nos données pour voir si le résultat scientifique dit toujours, par exemple, que ces trois gènes sont bien associés au cancer du sein. Est-ce que c’est un résultat scientifique qui est toujours vrai ? Ou si je bouge un tout petit peu, 5 % des données, eh bien patatras !, ça tombe par terre. Ça joue aussi dans la véracité, dans la confiance qu’on peut avoir dans un résultat scientifique.

Frédéric Couchet : D’accord. Cette notion de container, qui est une sorte d’environnement logiciel figé comme tu dis, qui englobe tous les scripts, tous les process nécessaires, etc., je suppose que pour la vérification, la revue par les pairs, on peut, quelque part, transmettre ce container à une autre équipe qui va l’installer sur son propre système et pouvoir vérifier. Est-ce que c’est faisable avec une garantie importante ?

Sarah Cohen-Boulakia : Oui, tout à fait. Par exemple, à l’Institut français de bio-informatique, ils ont un cloud dans lequel un certain nombre de ces machines virtuelles de type container sont proposées à la communauté pour que les gens puissent travailler dans un environnement qui soit comparable, pour que différentes équipes en France puissent comparer leurs résultats, parce qu’elles les ont obtenus dans un environnement informatique qui est le même.

Frédéric Couchet : D’accord. Question : est-ce que ces containers, ces outils, sont en Libre ? Je pose la question parce que je sais que Konrad a aussi envie parler de ça, on a préparé l’émission. Là on parle d’outils, on n’a pas précisé s’ils sont libres ou privateurs. Le fait d’avoir des outils libres va aussi permettre de voir le code source, de vérifier qu’il n’y a pas d’erreurs dans ces logiciels, alors que dans le cas de privateurs, ces containers seraient des boîtes noires, on ne saurait pas, finalement on devrait faire confiance. Quelle est la relation entre la reproductibilité des environnements logiciels et le logiciel libre ?

Konrad Hinsen : Premièrement, la technologie qui fait fonctionner les containers c’est du GNU/Linux, donc c’est du libre, il n’y a pas de question.

Après il y a des logiciels qui font l’administration du container, qui permettent de construire, de faire tourner, etc. Là, il y a du libre et du un peu moins libre, il y a un peu de tout.

Après il y a le contenu du container. L’image du container que je distribue contient plein de logiciels à l’état compilé binaire, ça peut être libre ou pas ; il y a un peu de tout là-dedans. Quand il y a un problème de reproductibilité, on se rend assez régulièrement compte que c’est souvent le non libre qui pose problème. Personnellement j’ai eu une expérience de ce type-là. Je fais partie de l’équipe rédactionnelle d’une revue en ligne qui s’intéresse à la reproductibilité. À un moment donné on a eu une soumission dont on ne pouvait pas vérifier la reproductibilité, contrairement à nos habitudes, parce que c’était basé sur un container Nvidia pour la GPU [Graphics Processing Unit].

Frédéric Couchet : Une carte graphique.

Konrad Hinsen : Une carte graphique. Nvidia est un fabricant de cartes graphiques qui propose des pilotes pour ses cartes graphiques qui ne sont pas libres. Il propose des containers tout prêts, avec ses pilotes dedans. On peut se baser là-dessus et faire son container en modifiant celui de Nvidia, c’est très bien, en plus on peut le diffuser, mais c’est Nvidia qui fait évoluer ses pilotes et ils ne font pas une archive des anciennes versions. Du coup, on s’est retrouvé avec quelque chose qui, six mois après le calcul d’origine, n’était plus reproductible parce que Nvidia avait modifié sa chaîne d’outils et c’était fini, c’était carrément un problème du propriétaire. Si ça avait été du code source libre on l’aurait re trouvé dans Software Heritage !

Frédéric Couchet : Marie-Odile sur le salon web pose une question : « Ces containers sont-ils en France ? ». Je suppose qu’elle fait référence notamment à l’hébergement des données.

Konrad Hinsen : Ce ne sont pas des objets physiques. Les containers ne sont nulle part.

Frédéric Couchet : Si, ils sont sur des machines.

Konrad Hinsen : Ils sont sur des machines, on peut les copier facilement, donc on ne réfléchit pas à la question du pays dans lequel ils sont.

Sarah Cohen-Boulakia : C’est un peu comme un gâteau avec une recette. On a la recette du container, ce sont quelques lignes, c’est tout petit, et ensuite on fabrique le gâteau sur son propre ordinateur.

Frédéric Couchet : D’accord. OK. On parlait de container, Guix semble être différent. Je précise l’orthographe de Guix et on parlera tout à l’heure des journées Guix très rapidement. Défi, Konrad : essayer d’expliquer ce qu’est Guix.

Konrad Hinsen : C’est la partie la plus difficile parce que ce sont plein de choses qui sont liées. On comprend les liens seulement quand on est vraiment à fond dedans et pour beaucoup de gens ça s’arrête avant.

Si vous regardez sur le site web de Guix, on le présente comme une distribution GNU/Linux, comme un gestionnaire de paquets. Un paquet est une unité d’une distribution de logiciels. Guix fait partie des gestionnaires de paquets, il y en a d’autres, il y a Debian, son système APT par exemple. Je pense que les auditeurs connaissent l’un ou l’autre des gestionnaires de paquets, donc Guix en est un autre.

Guix est aussi, et ce n’est pas tellement mis en avant sur le site, un gestionnaire de containers. Le plus connu par les chercheurs s’appelle Docker, c’est le plus connu en général, mais c’est un gestionnaire de container qui est fait pour le déploiement de systèmes logiciels à l’échelle industrielle, il n’est pas fait spécifiquement pour la reproductibilité.
Guix est un autre gestionnaire de container qu’on peut comparer à Docker. On peut par exemple créer une image Docker avec Guix, mais, du coup, ça veut dire reproductible.

Guix est plus l’outil, comme disait Sarah, qui applique la recette et fait le gâteau. C’est compliqué parce que ce sont deux choses en même temps : Guix est le robot qui fait la cuisine, mais c’est aussi la collection des recettes, c’est tout en un. C’est tout en un pour une très simple raison, pour éviter qu’il y ait une perte de cohérence entre les recettes et le robot qui fait la cuisine. J’aime cette image, le robot de cuisine ce n’est vraiment pas mal pour décrire Guix. On travaille toujours avec des ingrédients de base, donc le robot de cuisine Guix ne prend que des codes sources et fabrique des gâteaux de plus en plus compliqués. C’est d’abord une couche de biscuit, après la crème au chocolat, il le roule, il le coupe en tranches, assemble, etc., tout ça se fait étape par étape.

Frédéric Couchet : D’accord. Je précise qu’on parle de Guix parce que c’est notamment une des solutions à la question de la reproductibilité et également parce qu’en fin de semaine, du 16 au 18 septembre à Paris, ont lieu les dix ans de Guix, Guix a déjà dix ans. Sarah et toi, Konrad, vous intervenez dans ces journées. L’un des organisateurs, Tanguy, qui est à côté de nous, nous dit que les salles sont pleines mais que vous pouvez encore venir. Par contre, on prévient que c’est quand même dédié à des gens qui ont envie de comprendre effectivement ces choses-là. Je ne pense pas que quelqu’un qui, aujourd’hui, utilise une distribution libre pour faire de la bureautique ou autre chose va utiliser Guix.

Konrad Hinsen : Non.

Frédéric Couchet : C’est plutôt pour un public de chercheurs et aussi d’industriels, parce que la question de la reproductibilité dans la recherche et dans l’industrie, c’est assez proche.

Konrad Hinsen : Les journées Guix s’adressent quand même un peu à une certaine expertise technique. Si quelqu’un veut se lancer dans Guix, ce ne sont pas ces journées-là qui peuvent servir de tutoriel pour les débutants.

Frédéric Couchet : Ces journées-là sont plutôt des journées pour des personnes de Guix en fait ?

Konrad Hinsen : Oui. C’est pour la communauté Guix et pour des gens qui s’intéressent à des sujets connexes comme la reproductibilité en recherche qui est le sujet de la première journée, vendredi. Ça s’adresse plutôt aux développeurs Guix et aux gens qui sont utilisateurs et qui, peut-être, sont intéressés, veulent franchir le pas pour devenir contributeurs ; c’est le public visé, ce ne sont pas les débutants.

Frédéric Couchet : D’accord. Vendredi, si j’ai bien retenu, si vous voulez entendre Sarah et Konrad parler de reproductibilité et les rencontrer vous pouvez venir et peut-être éviter de venir le week-end sauf si effectivement ça vous a donné envie.

Konrad Hinsen : À l’IRILL [Initiative pour la Recherche et l’Innovation sur le Logiciel Libre]. On a appris ce matin qu’il y aurait une retransmission directe en vidéo, évidemment tout sera enregistré aussi. C’est moins bien que nous rencontrer en vrai, mais c’est quand même pas mal !

Frédéric Couchet : Tanguy nous dit que c’est effectivement retransmis en vidéo. C’est du 16 au 18 septembre à Paris, à l’IRILL, à Jussieu. C’est ça ?

Konrad Hinsen : Oui. À Jussieu.

Frédéric Couchet : De toute façon, toutes les informations sont sur le site libreavous.org. Cher Tanguy, vous transmettrez un bon anniversaire, dix ans, à Guix et aux équipes qui le développent. Merci.

Konrad Hinsen : Pour revenir rapidement à la question de l’industrie, etc., la question de la reproductibilité concerne effectivement d’autres domaines que la recherche.

Il y a par exemple l’histoire de la cybersécurité. Un grand client de ces techniques c’est Bitcoin. Ce qui est important, si on veut faire confiance au réseau Bitcoin, c’est que ça tourne réellement sur le logiciel Bitcoin et pas sur un logiciel truqué. Du coup, on est intéressé à rendre public non seulement le code source, mais aussi la recette qui produit le gâteau à partir de la recette, pour valider non seulement que la recette est la bonne, mais aussi que la recette a réellement été appliquée et pas une autre.

Il y a aussi des domaines complètement différents. Je parle souvent, par exemple, avec des chercheurs de chez EDF, EDF Recherche, pour lesquels la reproductibilité des calculs d’évaluation des centrales électriques s’impose parce que c’est une obligation légale. Quand ils utilisent des logiciels pour des calculs pour prouver que les centrales respectent certaines normes, ils doivent fournir la preuve de reproductibilité des calculs. La même notion se présente dans d’autres domaines où on veut pouvoir vérifier qu’un calcul fait ce que son auteur affirme qu’il fait. Ce n’est pas que dans la recherche.

Frédéric Couchet : OK. Sarah.

Sarah Cohen-Boulakia : Peut-être, pour compléter. De façon plus générale, en industrie aujourd’hui, on a changé de façon de programmer, on ne programme plus comme il y a 15 ans. On utilise notamment beaucoup de micros services, de nouvelles façons de construire des architectures logicielles, des environnements comme Docker ou autres sont omniprésents. Dans vos données bancaires, dans vos données médicales, il y a bien sûr ce type de structure qui est derrière. C’est plus pour rassurer les auditeurs.
En recherche, on se pose des questions de fond sur comment rendre nos environnements reproductibles et plus facilement manipulables tout en étant reproductibles. En industrie et autre, les choses qui sont faites de façon journalière, quotidienne, où c’est un peu tout le temps les mêmes processus qui tournent, évidemment que c’est reproductible.

Frédéric Couchet : D’accord. Est-ce que la reproductibilité informatique à 100 % existe ou existera, est-ce qu’on pourra être sûr ?

Konrad Hinsen : Tout dépend de l’effort qu’on est prêt à investir. La question n’est pas si c’est possible, mais si cela en vaut l’effort. Là, on a parlé d’environnement logiciel, pour ça il faut du matériel, il faut un processeur qui soit compatible. Si j’ai une belle pile logicielle et, qu’à la base, je n’ai pas un processeur qui peut l’exécuter, je ne fais rien avec. Actuellement la plupart des gens ont des processeurs Intel ou compatibles qui sont à tous les coins de rue, on n’a pas trop peur que ça disparaisse, mais bon ! C’est sûr que dans 50 ans on ne parlera plus d’x86. Après on peut passer dans des machines virtuelles, est-ce qu’elles sont réellement compatibles avec des processeurs d’origine ? ; on peut toujours pousser plus bas. C’est une des dimensions où il y a une limite, à un moment, donnée par l’effort qu’on veut faire. Évidemment, je peux toujours demander à quelqu’un qui sait faire des puces de me refaire un processeur Intel à l’identique ; si j’ai les moyens de le payer pour ça, ce n’est pas impossible, mais peut-être qu’on ne va pas le faire.

La question se pose aussi pour tout ce qui est échange sur les réseaux : est-ce que je vais réellement archiver tout ce qui se passe sur Internet ? Il y a des choses qu’on veut archiver, d’autres qui sont éphémères et qu’on va laisser tomber. Tout a un coût, et il faut se poser la question de jusqu’où on est prêt à aller.

le 100 % reproductible est, à mon avis un idéal, dont on peut se rapprocher tant qu’on veut, mais vraiment arriver au bout, non, je ne crois pas.

Frédéric Couchet : D’accord. Il reste très peu de temps. Est-ce que vous voudriez ajouter quelque chose avant la question finale ? On a forcément oublié des choses. Non ?

Sarah Cohen-Boulakia : Non. Je crois que ça s’est bien emboîté, si j’ose dire, du coup on rajouterait du bruit si on continuait sur autre chose.

Frédéric Couchet : D’accord. On ne va pas rajouter de bruit, on va ajouter de la synthèse. Chacun et chacune en moins de deux minutes, quels sont les éléments-clés à retenir de l’émission ? Qui veut commencer ? Sarah.

Sarah Cohen-Boulakia : Je dirais que le manque de reproductibilité, si on veut faire un peu un wrap up, c’est un problème qui va être omniprésent aujourd’hui parce que l’informatique est omniprésente dans notre société et ça dépasse complètement le contexte de la recherche ; même si l’émission d’aujourd’hui était sur le contexte de la recherche, cette problématique est présente partout.

Je dirais qu’il est urgent d’agir, d’abord dans le fait d’informer, c’est ce qu’on a commencé à faire aujourd’hui et qu’on essaye de faire globalement dans les journées qui sont organisées de plus en plus généralement. Et former. Informer c’est bien, mais il va nous falloir former. Former d’abord des enseignants à savoir ce que sont ces outils, ce qu’est cette crise de la reproductibilité, les enjeux, les problèmes qui sont posés aujourd’hui par ces environnements informatiques. Et, bien sûr, former des enseignants qui vont, à leur tour, former des étudiants. Là-dessus on manque de bras, on manque de personnes prêtes à venir, j’allais dire, dès le début de la licence, dès les premières années post-bac. Dès qu’on manipule une machine, il est très important que cette prise de conscience soit faite.

Frédéric Couchet : D’accord, merci Sarah. Konrad.

Konrad Hinsen : Je vais prendre un autre point de vue, complémentaire. Pour moi, la reproductibilité fait partie des labels qualité, d’une certaine façon, comme on a maintenant les normes ISO pour n’importe quelle partie de la production industrielle. Dans le monde du calcul, de l’informatique, dans tous ces contextes, la reproductibilité devient, à mon avis, un label de qualité, une preuve de rigueur qui ne dit pas que ce qu’on fait est vrai, ni faux, ce n’est pas ça, mais qui donne confiance. Dans ce sens-là il faut effectivement encourager. C’est bien de parler aux jeunes, il faut déjà parler aux chercheurs en cours, il faut leur expliquer que la rigueur fait partie de la méthode scientifique. Il y a aussi une obligation morale à tout moment, de tout bon chercheur, d’améliorer ses pratiques. Je vois des collègues qui disent que la reproductibilité c’est du travail, on a déjà trop de choses à faire, on n’a pas le temps, etc. Si on n’a pas le temps de s’améliorer, est-ce qu’on doit faire de la recherche ou pas ?
Je connais évidemment parfaitement les problèmes, je ne veux pas minimiser les difficultés, mais je trouve qu’il faut mettre en avant cet aspect de qualité, de rigueur, qui fait partie de la démarche scientifique.

Frédéric Couchet : Merci. Je vais juste préciser que Sarah fait partie de la douzaine de décodeuses du numérique. Le CNRS a publié une bande dessinée qui présente des chercheuses dans différents domaines. Ce sont des portraits présentés sous forme de BD avec un petit résumé de la vie de la personne, des problèmes qu’elle a pu rencontrer quand elle était à l’école et ce sont, malheureusement, des problèmes que les femmes ont beaucoup. Je le conseille, je crois qu’il vaut six euros. On mettra le lien sur le site web libreavous.org, ça s’appelle Les décodeuses du numérique et c’est aussi accompagné de ressources pour être utilisé dans les écoles.

Sarah Cohen-Boulakia : Il est libre. Vous pouvez imprimer tout le PDF chez vous, si vous le souhaitez.

Frédéric Couchet : Il est totalement en Libre effectivement. J’ai été ravi de recevoir Sarah dans cette émission.
Nos invités étaient Sarah Cohen-Boulakia et Konrad Hinsen sur la reproductibilité des environnements logiciels pour la recherche. Je remercie évidemment Tanguy Le Carrour pour l’aide proposée et apportée à la préparation de l’émission. Je le félicite et je l’encourage pour les dernières heures de préparation de la journée Guix qui a lieu à Paris du 16 au 19 septembre 2022. On mettra évidemment les références sur libreavous.org et ce sera également diffusé en ligne pour les personnes qui voudraient s’intéresser. Je rappelle que Konrad et Sarah font partie des personnes qui interviennent lors de ces journées. Vous intervenez quel jour ?

Sarah Cohen-Boulakia : Le premier, vendredi matin.

Konrad Hinsen : Vendredi c’est la journée de la recherche.

Frédéric Couchet : D’accord, dans la journée de vendredi. En tout cas, merci à vous et je vous souhaite une belle fin de journée.

Sarah Cohen-Boulakia : Merci beaucoup.

Frédéric Couchet : Nous allons faire une pause musicale.

 [Virgule musicale]

Frédéric Couchet : L’artiste que nous allons écouter est Jahzaar. Pour Jahzaar la musique est surtout un moyen de recréer un souvenir ou une ambiance. Cet artiste est originaire de Gijón et, depuis cette ville centrale de la Costa Verde, en Espagne, il n’hésite pas à voyager pour découvrir les capitales européennes. On aime bien Jahzaar dans l’émission car deux de nos jingles c’est de la musique de Jahzaar. Sometimes ce sont les virgules de transition et on utilise Waiting room uniquement quand on a des problèmes, c’est-à-dire qu’on vous ne l’avez jamais écouté jusqu’à présent vu qu’on s’en est toujours sortis.
On va écouter Big C Goes To L.A. On se retrouve dans moins de quatre minutes. Belle journée à l’écoute de Cause Commune, la voix des possibles.

Pause musicale : Big C Goes To L.A par Jahzaar.

Voix off : Cause Commune, 93.1.

Frédéric Couchet : Nous venons d’écouter partiellement Big C Goes To L.A par Jahzaar, disponible sous licence libre Creative Commons Partage dans les mêmes conditions, tout simplement parce que nous avons un tout petit peu de retard pour le sujet suivant, pour ne pas le couper.

[Jingle]

Frédéric Couchet : Nous allons passer au dernier sujet.

 [Virgule musicale]

Chronique « À cœur vaillant, la voie est libre » de Laurent et Lorette Costy sur le thème « Common voice, la voix de son maître »

Frédéric Couchet : Comprendre Internet et ses techniques pour mieux l’utiliser, en particulier avec des logiciels libres et services respectueux des utilisatrices et utilisateurs pour son propre bien être en particulier et celui de la société en général, c‘est la chronique « À cœur vaillant, la voie est libre » de Laurent Costy, administrateur de l’April, et de sa fille Lorette. Le titre de la chronique du jour, enregistrée il y a quelques jours : « Common voice, la voix de son maître ».

 [Virgule sonore]

Laurent Costy : Hello Lorette ! Ce n’est pas un peu soudain ce départ pour l’Espagne dans le cadre de tes études ? Tu en avais parlé à tes parents au moins ?

Lorette Costy : Je mûris juste le projet depuis plusieurs mois et en parle régulièrement, oui. Mais bon ! J’en arrive à la conclusion, en parlant à quelqu’un qui joue en même temps à Shattered Pixel Dungeon, que ça rend amnésique. Je ne suis pas sûre que la dernière étude de l’université d’Oxford sur le jeu vidéo explore cette piste.

Laurent Costy : Waouh, je viens de tauler Yog-Dzewa, le boss final pour la 8e fois dans cette version du jeu et pour la 2e fois en chasseresse. Là, tu respectes ton père ! Mais Oxford, c’est en Angleterre, je croyais que tu partais en Espagne !

Lorette Costy : Oui, Badajoz c’est un peu le Oxford espagnol, tu vois !

Laurent Costy : Si tu pars de septembre à janvier, comment va faire ton pauvre père pour enregistrer cette merveilleuse chronique tout seul ? Je peux peut-être essayer d’imiter ta douce voix ? Écoute, je t’imite quand tu avais 9 ans, fatiguée après avoir réussi à dessiner Tux, la mascotte de GNU/Linux : « Non mais GNU, c’est pas contre toi, c’est juste que t’es trop difficile à dessiner ! » [Prononcé avec une voix de petite fille, NdT]

Lorette Costy : Hou là ! On sent que c’est les vacances pour toi, tranquillou bilou, les orteils dans le ventilateur du processeur ! On dirait que tu meubles en cherchant en même temps le sujet de la chronique ! Tu veux parler de quoi en fait ?

Laurent Costy : De mon cœur déchiré de papa de te savoir bientôt si loin. Bon, il va falloir que nos moyens de communication de qualité, libres et redondés, fonctionnent. Ça me donne l’occasion de revenir sur le mail auto-hébergé que je te proposais et sur ta phrase de la dernière chronique : « Tu me garantis que je ne vais pas perdre de mails ? » [Prononcé avec une voix de petite fille, NdT]

Lorette Costy : Oh non ! Ne me dis pas que j’ai perdu des mails importants et que, comme je n’ai pas répondu, les 10 millions d’euros que me proposait ce fameux prince saoudien en exil contre seulement 500 euros de ma poche me sont passés sous le nez !

Laurent Costy : Non, c’est pire ! Tu as raté un message de Stéphane Bortzmeyer pour lequel tu étais en copie ! Je cite : « Au fait, Lorette ne reçoit pas mes messages en raison d’une erreur de configuration de son hébergeur de courrier qui utilise une liste noire étasunienne mal gérée. » [Prononcé avec une voix ténébreuse, NdT]

Lorette Costy : En l’occurrence, il s’agit de TON hébergeur de courriel ! Il va falloir que tu me résolves ça papa, sinon on risque des perturbations dans la force de la communication !

Laurent Costy : Oui, on touche du doigt le quotidien de celles et ceux qui ont à gérer artisanalement des serveurs de mails ! Il faut montrer patte blanche, signaler que l’on est gentil, le redire souvent, et faire attention aux messages d’erreur que l’on reçoit et qui ne sont pas toujours aussi limpides que la goutte de mirabelles distillée qui sort de l’alambic ! Je vais le signaler à Neutrinet, mon hébergeur !

Lorette Costy : Tiens, en parlant d’alcool, on pourrait grave faire une chronique avec genre une analogie un octet = une goutte d’alcool de mirabelles et montrer comment la quantité de données augmente chaque seconde dans le monde ! Ce serait très démonstratif, non ?, et aussi super original ?

Laurent Costy : Rhum antique ou mirabelle ancestrale, c’est juste le parfum de l’analogie qui change. Je peux illustrer cette forme d’inconscience de la taille des données dans la vie quotidienne avec une mésaventure extraordinaire, arrivée récemment dans les contreforts des internets.

Lorette Costy : Oh oui ! Raconte-moi comment tu as aidé une chouette colonie à publier articles et photos des petits loupiots et loupiotes qui y batifolaient !

Laurent Costy : Oh, j’ai fait simple. J’ai recommandé de prendre un service clé en main proposé par un hébergeur ayant pignon sur rue de vélo. Il y avait un giga d’espace ! Réaliste pour deux semaines d’activité de colonie.

Lorette Costy : Oui. En supposant que les photos déposées tournent autour du méga-octet – on va négliger ici les textes devant le poids des images et on va supposer qu’il n’y avait pas de vidéos à déposer –, ça laissait la possibilité d’exposer 1 000 photos en deux semaines, ce qui est très raisonnable.

Laurent Costy : Mais c’est sans compter le paramétrage par défaut des appareils utilisés ! Alors qu’une image d’un méga-octet suffit largement pour un affichage très honorable sur un écran de grande taille, on oublie la compétition technologique entre marques : « Regardez, je fais les plus grosses photos, j’ai trois objectifs et je suis tout vert ! Achetez-moi ! ». Il est alors courant d’obtenir par défaut des images tournant autour de cinq méga-octets. Et parfois, c’est même huit à dix mégas !

Lorette Costy : Et bim ! On passe de 1 000 photos à 200 si on dépose, comme un joli petit cochon rose, les photos sorties directement de l’appareil ! Pas étonnant que l’on atteigne la capacité maximale de l’espace disque attribué dans ces conditions ! Mais, du coup, quelle voie doit-on suivre si on veut quand même un joli site de colonie de vacances avec toutes les photos qui vont bien ?

Laurent Costy : Plein de choix s’offrent à toi. Il y a d’abord la technique ovino-consommatrice, appelée aussi technique « Windows-Apple » : « Tu as un nouveau besoin ? Tu rachètes ! », si tu en as les moyens, bien sûr, sinon tu craques, de tristesse ! En plus, si tu rachètes, tu seras dans le vent avec un appareil aux couleurs de l’été ! Là, en l’occurrence, dans notre exemple, consommer ovinement consiste à payer pour un hébergement plus cher mais avec plus d’espace.

Lorette Costy : Mais c’est finalement une autre voie qui a été choisie, celle de réduire la taille des photos déposées sur le site, tout simplement !

Laurent Costy : Bande d’anticapitalistes ! Ce n’est pas joli joli cette consommation raisonnée !
Mais revenons à nos ovins de Bourgogne. Comment allons-nous communiquer quand tu seras en Angleterre ibérique ? D’abord, je t’en prie, on évite les « vocaux ». Il semble que ce soit une pratique hyper-développée. Instagram et Snapchat, entre autres, ont remis au goût du jour le répondeur de mamie. J’imagine que c’est parce qu’il n’y a plus de cassettes à bande magnétique que cet usage passe pour une disruption majeure ?

Lorette Costy : D’autant que rien ne change ! Un pote m’a dit que ça le saoule d’écouter ce genre de messages, que c’est trop long ! Comme quand on rappelle les gens qui nous ont laissé un message sans écouter ce qu’ils ont déposé ! Par contre, on pourrait se poser la question de savoir pourquoi cette fonctionnalité a été poussée et pourquoi elle est utilisée alors qu’un message audio est de l’ordre de 100 à 1000 fois le poids du texte équivalent.

Laurent Costy : Je vois plein de raisons et comme tu es perspicace…

Lorette Costy : Et « merspirépare »…

Laurent Costy : Je suis sûr que tu peux en évoquer au moins une ou deux ?

Lorette Costy : Bah ! C’est déjà un moyen de contourner le problème pour les personnes qui, par exemple, ne sont pas à l’aise avec l’écrit. On pourrait aussi y voir la volonté, pour les réseaux sociaux, d’attirer les plus jeunes qui n’utilisent pas de clavier.

Laurent Costy : Pas mal ! Si cette chronique était gamifiante, tu gagnerais une rustine à réinvestir dans notre boutique en ligne pleine d’objets virtuels hyper-cool.

Lorette Costy : Oh joie ! Et aussi, en encourageant des vocaux plutôt que des messages textuels, on réalise la prophétie du besoin toujours plus grand d’infrastructures ou de nouvelles technologies, comme la 5G, pour pouvoir transmettre toutes ces données.

Laurent Costy : Bravo, encore une rustine pour toi. À moi cette fois ! Sans doute un argument à deux rustines d’ailleurs ! Comme d’habitude, les grosses entreprises de la tech offre de nouvelles fonctionnalités pour leurs propres intérêts et elles le justifient en argumentant sur l’amélioration de la sacro-sainte expérience utilisateur. Franchement, quand tu entends cette expression, je t’invite à te méfier plus encore que d’habitude.

Lorette Costy : Oui, cette expression est d’ailleurs très incomplète. Elle devrait être affichée plus transparente, du style : « Cette fonctionnalité est faite pour améliorer votre expérience utilisateur, mais surtout notre chiffre d’affaires que l’on prend soin d’optimiser fiscalement ».

Laurent Costy : Si on prend l’exemple de Discord, pour les appels vocaux, je cite directement la FAQ : « Que fait Krisp sur Discord ? Nous avons intégré Krisp pour améliorer encore plus notre expérience des appels vocaux. [...] Nous utilisons l’apprentissage automatique pour supprimer les bruits de fond qui ne sont pas des voix humaines, comme les aboiements de chiens, les aspirateurs ou les claquements de portes ».

Lorette Costy : Bon !, au moins, ils sont honnêtes, ils écrivent bien « notre expérience ». C’est la leur qu’ils veulent améliorer, pas la nôtre !

Laurent Costy : Effectivement et, au passage, ça révèle que les conversations sont scrutées. De là à ce que ces données nourrissent leur IA privée ! Moi, je préfère les projets qui nourrissent les communs numériques !

Lorette Costy : Oui, justement, parle-moi de Common Voice, ce projet de Mozilla qui te fait lire des phrases bizarres, tout seul dans ta chambre, mais qui, je cite le site « aide à apprendre aux machines comment les humains parlent vraiment. » Bien sûr, avec des projets comme ça, on ne peut pas devenir une licorne cotée en bourse du jour au lendemain, mais bon ! Moi je trouve quand même ça plus beau de contribuer aux communs !

Laurent Costy : Ton sens de l’esthétique t’honore ! Et puisqu’on est dans les citations, je cite Wikipédia : « Common Voice est un projet de myriadisation [...] Le but est de produire une base de données libre pour la reconnaissance automatique de la parole. Les audios et leurs transcriptions sont ensuite réunis dans une base de données du domaine public, sous la licence Creative Commons CC0. Cette licence permet aux développeurs d’utiliser la base de données vocales pour leurs applications de reconnaissance vocale [...] sans coûts ni restrictions. »

Lorette Costy : Et il est soutenu par des volontaires qui enregistrent des phrases avec un microphone et vérifient les enregistrements d’autres utilisateurs. Comme toi mon papa !

Laurent Costy : Modeste, ma contribution, quand on voit que 22 foufous ont par exemple enregistré plus de 40 000 petites phrases depuis 2017, début de l’existence du projet. Bravo à tous ces contributeurs et contributrices et aux autres, dont moi, qui ont permis, jusqu’à ce jour, de cumuler 23 gigaoctets de données pour un total de 868 heures validées !

Lorette Costy : Mais ça sert à quoi tout ça ? Qu’est-ce qui pourrait donner envie à une fille comme moi, dont la voix est, en plus, précieuse pour la base de données en manque de timbres féminins, de contribuer à un tel projet ?

Laurent Costy : Je vais te donner un exemple de ouf-ouf : avec cette base de données, mes petits camarades des Ceméa [Centres d’éducation aux méthodes d’éducation active], ont proposé un service en ligne libre et gratuit qui permet de transcrire un fichier audio ou vidéo. Tu déposes le fichier, tu donnes une adresse mail et tu reçois quelques minutes plus tard un lien pour ton fichier transcrit. Au passage, n’hésite pas à aller jeter un œil au site Libre à lire ! mis en place et animé par l’April. Outre toutes les transcriptions incroyables, toutes faites manuellement avec les oreilles celles-là, tu comprendras tout l’intérêt de retranscrire les fichiers.

Lorette Costy : Ah oui, j’ai trouvé, ça s’appelle Scribe et on trouve cet outil de transcription à l’adresse scribe.cemea.org. Et, pour le site de transcriptions dont tu parlais, c’est librealire.org ! C’était la page de publicité, nous pouvons maintenant revenir à notre histoire.

Laurent Costy : Qui n’est pas tout à fait finie. Un libriste qui travaille sur un autre projet de foufou, en l’occurrence, Scenari, une chaîne éditoriale, a trouvé que ce serait mieux si l’outil proposait aussi une ponctuation. Il a donc amélioré le programme et rendu tout ça à la communauté. C’est vraiment chouette ces contributions croisées qui enrichissent les communs numériques !

Lorette Costy : Bon, c’est décidé, je vais contribuer avec quelques phrases lues et écoutées du genre « au fil des années, l’organisation en viendra à privilégier les espadrilles aux pichous. »

Laurent Costy : Bon, je te laisse car si tu veux rattraper les premiers contributeurs et contributrices, tu as du thym sur la branche ! La bise mon espagnole bretonne !

Lorette Costy : Bises mon épagneul-breton !

 [Virgule sonore]

Frédéric Couchet : Nous venons d’écouter la chronique de Laurent et de Lorette Costy « À cœur vaillant la voie est libre ».

Nous approchons de la fin de l’émission, nous allons terminer par quelques menues annonces.

 [Virgule musicale]

Quoi de Libre ? Actualités et annonces concernant l’April et le monde du Libre

Frédéric Couchet : La semaine dernière, Isabella discutait avec Tebben Geerlofs de la Fête des Possibles qui se poursuit du 9 au 25 septembre. Le site web c’est fete-des-possibles.org, avec plusieurs événements cette semaine, à Beauvais, à Lyon et à Paris en fin de semaine. Je vous l’ai dit tout à l’heure, journée portes ouvertes au studio, vendredi 16 septembre 2022, à partir de dix heures. C’est au 22 rue Bernard Dimey, dans le 18e arrondissement de Paris. Vous retrouverez toutes les infos sur le site causecommune.fm.
La semaine prochaine, vendredi 23, nous aurons un apéro April, avec présentation du Chapril, notre service en ligne. J’aurai l’occasion d’en parler. Vous pouvez noter la date, vendredi 23 septembre, à partir de 19 heures.
Et je vous invite à regarder le site de l’Agenda du Libre, agendadulibre.org, pour retrouver tous les événements organisés en France et même dans certains autres pays comme la Belgique.

Notre émission se termine.

Je remercie les personnes qui ont participé à l’émission : Isabelle Carrère, Sarah Cohen Boulakia, Konrad Hinsen, Laurent et Lorette Costy. Merci à Tanguy Le Carrour pour l’aide à la préparation du sujet principal.
L’émission du jour a été mise en ondes par ma collègue Isabella Vanni.
Merci également aux personnes qui s’occupent de la post-production des podcasts : Samuel Aubert, Élodie Déniel-Girodon, Lang1, bénévoles à l’April, et Olivier Grieco, le directeur d’antenne de la radio.

Vous retrouverez sur notre site web, libreavous.org, toutes les références utiles, ainsi que sur le site de la radio, causecommune.fm.
N’hésitez pas à nous faire des retours pour indiquer ce qui vous a plu, mais aussi des points d’amélioration. Vous pouvez également nous poser toutes vos questions par courriel à l’adresse contact chez libreavous.org. Si vous préférez nous parler, vous pouvez nous laisser un message sur le répondeur de la radio pour réagir à l’un des sujets de l’émission, pour partager un témoignage, vos idées, vos suggestions, vos encouragements ou nous poser une question. Le numéro du répondeur est 09 72 51 55 46.

Nous vous remercions d’avoir écouté l’émission. Si vous avez aimé cette émission, n’hésitez pas à en parler le plus possible autour de vous et à faire connaître également la radio Cause commune, la voix des possibles.

La prochaine émission aura lieu en direct mardi 20 septembre 2022 à 15 heures 30 et, derrière le micro, il y aura ce coup-ci justement Laurent Costy et moi je serai derrière la vitre, à la réalisation. Le sujet principal portera sur le thème : « Être responsable libriste d’un système d’information dans une association ».

Nous vous souhaitons de passer une belle fin de journée. On se retrouve en direct mardi 20 septembre et d’ici là, portez-vous bien.

Générique de fin d’émission : WeSoftware Heritage Tone par Realaze.