Voix off : Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre.
Frédéric Couchet : Bonjour à toutes. Bonjour à tous. Vous êtes sur la radio Cause Commune 93.1 en Île-de-France et partout ailleurs sur le site causecommune.fm. La radio dispose d’un webchat, donc utilisez votre navigateur web, connectez-vous sur le site de la radio, cliquez sur « chat » et rejoignez-nous sur le salon web.
Nous sommes mardi 12 février 2019, nous diffusons en direct, mais vous écoutez peut-être une rediffusion ou un podcast.
Soyez les bienvenus pour cette nouvelle édition de Libre à vous !, l’émission pour comprendre et agir avec l’April, l’association de promotion et de défense du logiciel libre. Je m’appelle Frédéric Couchet, je suis le délégué général de l’April.
Le site web de l’April est april.org, vous y trouvez déjà une page consacrée à cette émission avec tous les liens et références utiles, les détails sur les pauses musicales et toute autre information utile en complément de l’émission.
Vous pouvez également nous faire des retours pour nous indiquer ce qui vous a plu mais aussi des points d’amélioration.
Je vous souhaite une excellente écoute.
Nous allons passer maintenant au programme de cette émission.
Nous allons commencer dans quelques secondes par une chronique de Jean-Christophe Becquet, président de l’April, intitulée « Pépites libres ». Normalement Jean-Christophe est avec nous au téléphone, bonjour Jean-Christophe.
Jean-Christophe Becquet : Bonjour Fred. Bonjour à tous.
Frédéric Couchet : On se retrouve d’ici quelques secondes.
D’ici une quinzaine de minutes notre sujet principal portera sur le projet Software Heritage avec Roberto Di Cosmo qui est avec nous en studio. Bonjour Roberto.
Roberto Di Cosmo : Bonjour Fred.
Frédéric Couchet : Et, en fin d’émission, nous parlerons du projet de loi pour une école de la confiance et des amendements proposant d’inscrire dans la loi la priorité au logiciel libre dans l’Éducation.
Je salue à la réalisation de l’émission, pour sa première, notre camarade Patrick Creusot sous la surveillance et l’aide d’Étienne Gonnu, de Charlotte Boulanger et d’une autre personne dont je ne connais pas le prénom, j’en suis désolé.
Tout de suite nous allons passer au premier sujet avec la seconde édition de la chronique de Jean-Christophe Becquet, président de l’April, chronique qui s’appelle « Pépites Libres ». Dans cette chronique, Jean-Christophe nous présente une ressource sous une licence libre – texte, image, vidéo ou base de données – sélectionnée pour son intérêt artistique, pédagogique, insolite, utile et les auteurs de ces pépites ont choisi de mettre l’accent sur les libertés accordées à leur public.
La chronique du jour, Jean-Christophe, porte sur le dessin animé de Nina Paley, Copier n’est pas voler.
Chronique « Pépites libres » de Jean-Christophe Becquet - Copier n’est pas voler, dessin animé de Nina Paley
Jean-Christophe Becquet : Dans ma chronique du mois de janvier, je vous invitais à découvrir la conférence Un Faible Degré d’Originalité d’Antoine Defoort dont la vidéo est disponible sous licence libre. Parmi ses sources d’inspiration j’évoquais Nina Paley et c’est sur elle que j’aimerais revenir aujourd’hui.
Nina Paley est une artiste américaine auteur de bandes dessinées et de dessins animés.
J’ai donc choisi de vous parler d’un dessin animé de Nina Paley Copier n’est pas voler ou Copying Is Not Theft en anglais. Il s’agit d’une vidéo très courte, elle dure à peine une minute. De manière ludique et en chansons, Nina Paley dénonce l’amalgame entre le vol et la copie.
En effet, le vol concerne des objets matériels alors que la copie s’applique aux idées et aux œuvres de l’esprit qui, elles, sont intangibles et immatérielles. Et c’est cette escroquerie intellectuelle que dénoncent les petits personnages de Nina Paley.
Dans le code pénal français, le vol est défini comme la soustraction frauduleuse de la chose d’autrui ; c’est l’article 321.1. Donc le vol est une soustraction, c’est-à-dire qu’il prive sa victime de l’objet dérobé, alors que pour la copie c’est complètement différent : copier c’est multiplier. Je sais que le logiciel libre préserve vos libertés et je vous le dis. Alors nous sommes plusieurs à le savoir sans que je sois privé de ma connaissance initiale. On voit bien qu’il n’y a pas soustraction ! Les idées que je partage à travers cette chronique sont multipliées par le nombre d’auditeurs. En faisant le choix d’une licence libre pour ses émissions, Cause Commune encourage cette multiplication.
Les héros du dessin animé de Nina Paley s’amusent à comparer le vol et la copie d’un vélo. En effet, dans leur monde immatériel, il est possible très facilement de faire des copies : un simple coup de crayon, deux clics de souris, et chacun peut enfourcher une copie du vélo. Ils échappent à ce qu’on appelle la rivalité des biens matériels, c’est-à-dire le fait que chacun prenne une copie d’un objet nécessite une quantité importante de ressources et d’énergie.
À l’inverse, depuis l’avènement d’Internet, la copie est grandement facilitée et son coût est devenu marginal. C’est un problème pour les défenseurs de l’ancien système basé sur des rentes indexées sur le nombre de copies. C’est une formidable opportunité pour l’humanité. De plus en plus d’auteurs choisissent de partager leur travail sous licence libre.
Aujourd’hui j’ai envie de dire : copions et multiplions toutes ces pépites libres !
Frédéric Couchet : Merci Jean-Christophe. Donc ce dessin animé de Nina Paley dure à peu près une minute. Les références sont sur le site de l’April avec la version originale qui est en anglais, une version française ; il y aussi un lien vers des versions modifiées parce que dès le départ, Nina Paley qui a diffusé ce dessin animé sous licence, de mémoire, CC BY SA, Creative Commons Partage à l’identique, a encouragé les personnes à faire des modifications, à mettre leurs propres musiques. Donc il y a un certain nombre de versions modifiées avec des musiques assez sympas.
Ces petits personnages rappelleront les cartoons qu’on connaît avec notamment les petits personnages qui ont quatre doigts au lieu de cinq doigts. Ce dessin animé date de quelle époque ? Est-ce que tu te souviens ?
Jean-Christophe Becquet : C’est relativement ancien, en fait, ça date de 2010.Ça a dix ans et effectivement, comme tu l’as dit, parce que Nina Paley a choisi une licence libre, ce dessin animé a fait l’objet d’un grand nombre de reprises, d’adaptations, de traductions d’abord. On le trouve dans un grand nombre de langues. On a mis le lien vers la version française, mais il y aussi des versions en espagnol, en allemand. Il y a des adaptations avec d’autres styles de musique et on peut aussi télécharger les paroles, la partition. L’intérêt de la démarche de Nina Paley c’est que toutes les briques de sa création sont libres et qu’elle encourage effectivement la création et la réutilisation. Du coup, en dix ans d’ancienneté de cette vidéo, il y en a eu un grand nombre.
Frédéric Couchet : Et ce n’est pas la première animation que Nina Paley a libérée parce qu’en 2006 ou 2008, peut-être, elle avait distribué un dessin animé beaucoup plus long, son animation Sita Sings the Blues sous licence Creative Commons Partage à l’identique et, en plus, elle avait explicitement interdit la pause de verrous numériques, les DRM qu’on a déjà évoqués dans une précédente émission. Donc Nina Paley est une personne qui milite vraiment, on va dire depuis 2008-2010 au moins, pour un mouvement de ce qu’on peut appeler la culture libre. Sur son site ninapaley.com on peut retrouver ses différentes productions en plus, effectivement, de ce dessin animé Copier n’est pas voler dont tu nous as parlé. Quel est le lien avec le logiciel libre ?
Jean-Christophe Becquet : En fait c’est que ces licences libres qui sont aujourd’hui utilisées pour les œuvres de Nina Paley, donc les licences Creative Commons, sont les héritières des licences du logiciel libre. C’est-à-dire que le Libre est né avec le logiciel libre, Richard Stallman en 1984 et, en fait, avec le temps, d’autres personnes ont eu envie de libérer d’autres ressources que des logiciels et se sont mises à réfléchir à des licences adaptées à des ressources non-logicielles. Donc ça a donné la licence Art libre, par exemple, qu’on utilise à l’April, les licences Creative Commons dont certaines sont considérées comme libres et d’autres licences qui s’inspirent des libertés du logiciel libre, mais pour les transposer à d’autres œuvres comme des textes, des images, des livres ou des films et dessins animés dans le cas de Nina Paley.
Frédéric Couchet : Et le principe de non-rivalité que tu as expliqué et qui est explicité dans cette vidéo est évidemment valable pour toute œuvre de l’esprit qui est une ressource non exclusive et non rivale, c’est-à-dire que tout le monde a un libre accès à cette ressource, non exclusif, et il n’est pas possible d’exclure quelqu’un de l’usage d’une telle ressource sauf, évidemment, à recourir soit à des principes juridiques, soit à des principes techniques comme les mesures techniques qui, des fois, enfin souvent, sont également protégées par des principes juridiques.
Jean-Christophe Becquet : Oui. Tout à fait. C’est ce que j’ai appelé les tenants de l’ancien système qui, eux, utilisent des verrous juridiques et techniques pour lutter contre cette facilité de copie des ressources qui pose bien des problèmes à leur modèle économique archaïque.
Frédéric Couchet : Exactement. Et pour finir, je te laisserai le mot de conclusion, ça explique aussi pourquoi nous refusons le terme de « propriété intellectuelle », pour deux raisons principales. Déjà le terme « propriété intellectuelle » laisserait supposer qu’on peut, en fait, réfléchir aux œuvres de l’esprit comme on peut réfléchir à des objets matériels alors que ce n’est pas le cas, ce n’est pas la même propriété notamment ce que tu as expliqué, la non-rivalité. Et deuxième chose, c’est que le terme de « propriété intellectuelle » dans le droit englobe des domaines très différents qui vont du droit d’auteur aux brevets et à plein d’autres choses qui sont très différentes dans leurs principes. C’est pour ça que nous on préfère parler spécifiquement d’un droit particulier, par exemple le droit d’auteur et que, dans son ensemble, le terme « propriété intellectuelle » ne doit pas être utilisé parce qu’il pousse à réfléchir sur les œuvres de l’esprit comme on réfléchirait sur des œuvres matérielles.
Est-ce que tu as une phrase de conclusion ? Est-ce que tu veux rajouter quelque chose cher Jean-Christophe ?
Jean-Christophe Becquet : Oui. Juste dire que Nina Paley a fait, comme tu l’as dit, d’autres dessins animés, notamment un autre dessin animé de sensibilisation au Libre qui montre à quel point toute œuvre créée s’inspire des œuvres existantes. Je vous invite à découvrir ça et puis, dans l’attente, eh bien je me mets en recherche d’une nouvelle ressource libre pour la chronique « Pépites libres » du mois prochain. Un grand merci et bonne écoute pour la suite de l’émission.
Frédéric Couchet : Merci Jean-Christophe et on se retrouve le mois prochain.
Nous allons passer par une petite pause musicale qui va être relativement courte vu qu’elle dure 59 secondes. Évidemment, c’est la bande son du dessin animé de Nina Paley Copier n’est pas voler.
Pause musicale : Copier n’est pas voler, bande son du dessin animé de Nina Paley.
Frédéric Couchet : Vous êtes de retour sur Cause commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Nous venons d’écouter la bande son du dessin animé de Nina Paley Copier n’est pas voler dont les références sont sur le site de l’April, april.org, vous avez une page qui est consacrée à l’émission.
Software Heritage avec Roberto Di Cosmo
Frédéric Couchet : Nous allons passer à notre sujet principal avec notre invité du jour et c’est un grand plaisir de recevoir Roberto Di Cosmo pour parler de l’initiative Software Heritage, archive mondiale du logiciel. Donc rebonjour Roberto.
Roberto Di Cosmo : Bonjour Fred.
Frédéric Couchet : Roberto tu es italien, installé en France, professeur d’informatique ; tu es un libriste depuis très longtemps.
Roberto Di Cosmo : Depuis plus de 20 ans.
Frédéric Couchet : Je pense qu’on se connaît depuis une petite vingtaine d’années. Tu as été rendu célèbre notamment par un pamphlet en 1998 qui s’appelle Piège dans le cyberespace et ensuite par un livre coécrit avec Dominique Nora la même année, donc 1998, qui s’appelait Le hold-up planétaire : la face cachée de Microsoft, sur les problèmes posés par le monopole de Microsoft et aussi ses méthodes pour contrer toute concurrence et, en premier, le logiciel libre.
Depuis septembre 2010 tu es directeur du laboratoire IRILL, Initiative pour la Recherche et l’Innovation sur le Logiciel Libre et, depuis septembre 2016, tu es détaché auprès de l’Inria, l’Institut national de recherche en informatique et en automatique, et tu es directeur de l’initiative Software Heritage depuis 2016.
Roberto Di Cosmo : Oui. Tout à fait.
Frédéric Couchet : Est-ce que cette présentation te paraît correcte ou est-ce que tu veux ajouter quelque chose ?
Roberto Di Cosmo : On pourrait ajuster quelque petite chose par ci ou par là, mais, globalement on y est.
Frédéric Couchet : D’accord. Avant de te laisser la parole et avant d’échanger sur le projet Software Heritage, en préparant l’émission évidemment je me suis renseigné et j’ai trouvé qu’en fait, le plus simple, c’était de prendre des extraits de l’annonce officielle de l’Inria en 2016 qui annonce « Software Heritage, archive mondiale du logiciel ». Annoncée le jeudi 30 juin 2016 l’ouverture au public du projet Software Heritage : « Ce projet a pour objectif de collecter, organiser, préserver et rendre accessible à tous et à toutes le code source de tous les logiciels disponibles. Un enjeu de portée mondiale. » Antoine Petit, PDG de l’Inria, précise : « Les logiciels sont aujourd’hui au cœur de toutes les activités humaines, de la médecine aux loisirs, des communications à l’agriculture. » Je poursuis la présentation du communiqué de l’Inria : « En construisant une archive universelle et pérenne du logiciel, Software Heritage vise à mettre en place une infrastructure essentielle au service de la société, de la science et de l’industrie. Software Heritage vise à construire à la fois une moderne bibliothèque d’Alexandrie du logiciel, le référentiel unique du code source et un grand instrument de recherche pour l’informatique. Le projet va permettre de préserver et diffuser la connaissance aujourd’hui encodée dans le logiciel et augmentera notre capacité d’accéder à l’ensemble de l’information numérique. La base s’appuiera notamment sur une infrastructure distribuée — on y reviendra — de manière à garantir la robustesse et la disponibilité des données. » Lors de l’annonce, deux premiers partenaires internationaux s’étaient déjà engagés à soutenir le projet et l’aider à grandir, Microsoft, dont on vient de parler, ainsi qu’une institution publique au service de la recherche scientifique, le DANS de la Royale Académie des Pays-Bas.
Roberto Di Cosmo : Tout à fait.
Frédéric Couchet : Une fois cette introduction faite, j’ai envie de te poser la première question pour entrer un peu dans les détails, quels problèmes cherche à résoudre l’initiative Software Heritage lancée en 2016 par l’Inria ?
Roberto Di Cosmo : Tout d’abord merci de m’avoir invité, c’est vraiment un plaisir de passer échanger un peu sur ce sujet, de prendre un peu de temps, un peu de calme. Comme tu sais, Fred, ça fait longtemps qu’on s’occupe de logiciels, de logiciels libres, de codes, d’informatique en général donc on a vu pas mal d’évolutions de notre société. Aujourd’hui on est tous d’accord que le logiciel est quelque chose d’essentiel. Par contre, il faut dire que les personnes qui ne sont pas très techniques donc qui ont plutôt l’habitude de voir les logiciels juste comme des outils : tu prends ton téléphone, tu appuies sur une icône, ça lance une petite application, ça fait quelque chose ; on peut envoyer des bisous à quelqu’un qu’on aime, on peut acheter quelque chose, on peut regarder une vidéo, c’est très bien. Par contre, on a tendance à ne pas savoir, à oublier que derrière ces logiciels qui sont exécutables, qu’on utilise comme des outils, en vérité il y a tout un travail humain de conception super important. Ces logiciels ne tombent pas du ciel, ils sont écrits, c’est vraiment le terme qu’on utilise quand on développe – les développeurs écrivent du logiciel –, on les écrit dans des langages de programmation en produisant ce qu’on appelle le code source. C’est le code source du logiciel qui contient vraiment la connaissance qui est nécessaire pour faire fonctionner ce logiciel-là.
Frédéric Couchet : Tu peux expliquer peut-être juste ce qu’est le code source aux personnes qui nous écoutent.
Roberto Di Cosmo : On peut prendre l’analogie habituelle qu’utilise aussi Richard [Stallman] à un moment donné, l’histoire de la recette de cuisine. Par exemple vous avez un gâteau que vous aimez beaucoup, ça c’est un peu l’exécutable, vous coupez des tranches et vous mangez, c’est super. Par contre, s’il faut le refaire, c’est un peu compliqué si on ne vous a pas expliqué comment on l’a fait. En général on s’échange des recettes de cuisine dans lesquelles on dit dans quel ordre on a mis quel ingrédient, pendant combien de temps, etc. C’est un peu la même idée. Dans la musique aussi : vous pouvez écouter de la musique qui est fantastique mais pour refaire cette musique-là normalement on a besoin d’une partition et ce n’est pas facile de reconstruire la partition juste en écoutant la musique telle qu’elle est.
Il faut savoir que dans le cas des logiciels c’est un peu la même histoire, sauf que c’est énormément plus compliqué. À partir d’un binaire – un binaire c’est ce qu’on utilise pour les exécutables, les applications qu’on voit – reconstruire ce qu’on appelle le code source qui est la représentation du logiciel, qui est préféré pour un développeur pour le modifier, c’est vraiment la définition formelle, c’est énormément difficile en partie aussi parce que, très souvent, dans ce logiciel on a plein de commentaires ou d’annotations qui sont faites pour les êtres humains, pour les relire, et qui disparaissent.
Frédéric Couchet : Qui sont supprimés dans la phase de cuisson, quelque part.
Roberto Di Cosmo : Voilà ! Dans la phase de cuisson ça disparaît, on ne les retrouve pas dans l’exécutable qui tourne sur la machine donc on a complètement perdu de l’information.
C’était un peu le préalable. Effectivement on parle souvent de logiciels, mais on oublie que ces logiciels sont fabriqués à travers une forme qui est ce code source, qui est vraiment précieuse, qui est une forme d’écriture nouvelle, technique, une sorte de littérature technique du 21e siècle qu’on est en train de mettre en place.
Frédéric Couchet : Ça ressemble quand même à un langage quelque part naturel parce qu’il y a une grammaire, il y a un vocabulaire et en fait, n’importe quelle personne, y passant du temps, peut apprendre à écrire du code ou à le comprendre.
Roberto Di Cosmo : Absolument. Tu fais très bien de le dire. Il ne faut pas non plus se sentir rebuté par le code source. C’est la même chose que dans la littérature. On utilise tous le français, moi avec un peu d’accent, mais normalement on utilise tous la langue française. Pourtant il y a des textes qui sont très faciles à lire, il y a des textes qui sont beaucoup plus compliqués donc il faut passer du temps pour comprendre ce que ça veut dire.
Dans le cas des programmes c’est un peu similaire : il y a des programmes qui sont très simples à aborder et des programmes qui sont plus complexes, qui nécessitent plus de temps pour comprendre des notions plus avancées. C’est quand même à la portée, pas de tout le monde, mais en y mettant un peu d’énergie on arrive à comprendre ce qui se passe derrière. Et c’est vraiment une production humaine.
Frédéric Couchet : Donc ce premier point et je te laisse continuer, c’est l’importance du code source quand on parle de logiciels et donc ça sera l’un des points central de Software Heritage. Je te laisse poursuivre.
Roberto Di Cosmo : Absolument. Les auditeurs ne peuvent pas le voir, mais moi j’ai un peu la barbe blanche, je commence à avoir un certain âge, n’empêche que comme informaticien je pense toujours au futur, on est toujours projeté vers le futur, on a du mal à se confronter avec l’idée de perdre, de disparition, de mort, d’échec, de perte d’informations. Donc on ne réfléchit pas trop, on est toujours dans la dynamique de construire des choses nouvelles, mais après, si on se pose un instant, on se rend compte qu’il y a énormément de cette connaissance, énormément de logiciels qu’on a construits, de codes sources qu’on a écrits qui sont en réalité en danger ; personne ne s’occupe vraiment de les préserver, de les protéger, de les indexer, de les rendre facilement disponibles. Il y a énormément d’initiatives pour archiver des informations numériques, par exemple l’Internet Archive qui est une initiative magnifique.
Frédéric Couchet : C’est archive.org ou archive.org.
Roberto Di Cosmo : C’est parti il y a plus de 20 ans cette archive. Elle archive le Web, les pages web qu’on connaît. Il y a d’autres initiatives qui essaient d’archiver des vidéos, qui essaient même d’archiver des exécutables de logiciels, Internet Archive fait ça aussi, un peu. Donc on archive tout ce que vous voulez dans le monde numérique sauf, et c’était ça qui était surprenant, le point de départ du projet, sauf le code source qui est quand même la brique fondamentale de la révolution numérique dans laquelle on vit aujourd’hui. C’était étonnant ! Quand on s’est aperçu de ça et d’ailleurs on s’en est aperçu de façon un peu…
Frédéric Couchet : En fait, peut-être que les gens pensaient que comme le code source était dupliqué sur plein de machines qu’il ne pourrait jamais disparaître. Peut-être que les gens pensaient ça !
Roberto Di Cosmo : Tu sais, le même argument on peut le faire pour la vidéo, pour les images, etc. Pourquoi les archiver si elles sont bien dupliquées sur l’ordinateur de quelqu’un ?
Frédéric Couchet : Oui, tout à fait.
Roberto Di Cosmo : On a tendance à confondre plusieurs activités qui sont très importantes. D’ailleurs j’ouvre une petite parenthèse mais qui est importante en termes de terminologique : quand on développe du logiciel, souvent aujourd’hui quand on fait du logiciel libre on travaille de façon collaborative, en réalité on a besoin d’infrastructures qui font trois choses différentes.
Il y a un premier type d’infrastructures qui sont ce qu’on appelle souvent les forges logicielles. Ce sont des endroits dans lesquels une communauté de développeurs travaille de façon collaborative pour mettre au point un logiciel ou le faire évoluer. On travaille ensemble, on commente, on décide, on trouve les erreurs, on les corrige, etc. C’est très dynamique. Ça ce sont les plateformes de développement.
À un certain moment on peut dire : tiens, cette version-là du logiciel est quand même la version stable, celle qu’on veut vraiment distribuer, que tout le monde puisse la réutiliser facilement, etc. À ce moment-là on a envie de le diffuser, de le partager, de le rendre plus facilement accessible à tout le monde et là on passe dans une deuxième catégorie de plateformes qui sont normalement des plateformes de distribution.
Et après il y a un troisième type de plateformes qui n’existent pas, qui sont des plateformes d’archivage. C’est quoi une archive ? C’est un endroit dans lequel quand on a versé un objet dedans, on a déposé un objet dedans, on repasse six mois, deux ans, trois ans, dix ans, cent ans après, si on est tous vivants, et on retrouve le même objet.
Ce sont trois missions très différentes.
Frédéric Couchet : Je vais juste préciser par rapport aux personnes qui écoutent régulièrement l’émission qu’on a parlé des distributions GNU/Linux il y a une semaine ou quinze jours, je ne sais plus, notamment avec Nicolas Dandrimont qui travaille avec toi sur Software Heritage et qu’on a parlé plusieurs fois des forges logicielles, alors pas d’un point de vue technique, mais on en a parlé dans le cadre du projet de directive européenne sur le droit d’auteur qui peut mettre justement en danger ces forges logicielles. Vous retrouvez ces références sur le site de l’April, podcast et transcriptions. Je te laisse poursuivre Roberto.
Roberto Di Cosmo : Parfait, merci.
Donc là, finalement ce qui manquait dans le panorama, c’était une plateforme qui fasse vraiment l’archivage de ces logiciels. Donc c’était vraiment quelque chose qui manquait et, en regardant un peu plus, on s’était rendu compte qu’effectivement il y a plein de logiciels, il y a plein de codes sources de logiciels qui sont disponibles ; cela dit, on n’a pas un vrai catalogue. Ils sont éparpillés sur plein de ces autres plateformes, soit sur les plateformes de développement, soit sur les plateformes de distribution, on ne sait pas où chercher. Donc la meilleure approche, en général, c’est un moteur de recherche, demander à un copain à la machine à café : où est-ce que je trouve telle librairie, telle bibliothèque pour faire telle application. Finalement on a découvert qu’il n’y avait pas d’archive.
Fred, par exemple quand on a commencé ça, parce que tu as bien fait de mentionner le 30 juin 2016, c’est le moment où on a annoncé le projet de façon publique…
Frédéric Couchet : Mais le projet avait commencé avant.
Roberto Di Cosmo : Le projet avait commencé bien avant !
Frédéric Couchet : Quand ça ?
Roberto Di Cosmo : Les premières idées ont commencé à circuler dans l’été 2014.
Frédéric Couchet : Donc deux ans avant en fait.
Roberto Di Cosmo : Deux ans avant.
Frédéric Couchet : Quand il y a l’annonce de l’Inria vous avez déjà commencé à travailler depuis deux ans, vous avez déjà commencé à archiver des logiciels. Tu te souviens au moment de l’annonce de l’Inria combien il y en avait déjà ?
Roberto Di Cosmo : Je pense qu’on avait déjà archivé peut-être un milliard de fichiers sources différents.
Frédéric Couchet : Un milliard de fichiers sources. D’accord !
Roberto Di Cosmo : Ce qui est quand même remarquable ; ce sont des fichiers sources tous différents, uniques. Il faut savoir que justement dans cette période pendant laquelle on était en mode un peu sous-marin, parce qu’on ne voulait pas… Je déteste vendre du slideware, vendre de la fumée.
Frédéric Couchet : Du slideware. En français on traduit ça comment ?
Roberto Di Cosmo : Je ne sais pas comment traduire ça.
Frédéric Couchet : C’est-à-dire uniquement des diaporamas avec des listes à points.
Roberto Di Cosmo : Des diaporamas avec quelques idées et après on ne sait pas comment c’est fait. Je préfère arriver avec un prototype, montrer des choses qui fonctionnent. On avait mis en place une petite équipe, commencé à construire un premier prototype pour donner de la crédibilité à ce qu’on faisait. C’était une démarche pas évidente. Mais tu vois, dans cette période-là où on était en souterrain, c’est-à-dire entre 2014 et 2016, il y a eu deux événements qui ont montré clairement pourquoi c’était important d’avoir une archive. Parce que, comme tu dis, plein de gens se disent pourquoi faire une archive ? Après tout il y a plein de copies à droite, à gauche, il n’y a pas de problème.
Frédéric Couchet : Eh bien oui, c’est sur Internet !
Roberto Di Cosmo : C’est sur Internet, on le trouve, etc. Il faut savoir qu’au mois de mars 2015, c’est assez intéressant, il y avait deux plateformes de développement très populaires à l’époque, une qui s’appelait Gitorious et l’autre qui était Google Code, pas exactement la même quantité d’argent derrière, les deux étaient très populaires. Sur Gitorious il y avait à peu près 120 000 projets de développement logiciel, sur Google Code il y en avait un million et demi. Au mois de mars 2015, il y a deux annonces : d’un côté l’annonce de Gitorious qui se fait racheter par une autre entreprise qui est GitLab. Comme il y a ce rachat-là, ils décident de fermer l’ancienne forge Gitorious, ils ne font pas de transfert de données, ils ont juste donné une annonce.
Frédéric Couchet : Ils ferment sans laisser accès, c’est ça ?
Roberto Di Cosmo : Ils ferment sans laisser l’accès et ils disent tout simplement aux gens : « Écoutez on ne va quand même pas maintenir deux plateformes ; vous avez trois semaines pour tout transférer et après on ferme. » Alors ça a duré un peu plus de trois semaines, heureusement, parce que les gens ont un peu protesté, mais vous voyez un peu le topo. Maintenant effectivement c’est fermé. Si vous allez regarder là-dedans il n’y a plus rien et, en parallèle, Google avait annoncé que bon, bref ! Il y avait d’autres solutions, que Google Code n’était plus forcément justifié à maintenir. Ça c’est leur décision, c’est leur droit de faire ce qu’ils veulent, c’était mis à disposition de façon gratuite, gratuite mais pas libre, justement, et là c’était un milliard et demi de projets qui étaient mis en danger sauf que Google est un peu plus seigneurial donc il a donné un an.
Frédéric Couchet : Donc ils ont laissé plus de temps ! Un an.
Roberto Di Cosmo : Un an, pas trois semaines et ils ont quand même gardé une sorte de version d’archive dans un coin.
Ça c’est arrivé un peu à point nommé parce que ça montrait que le message qu’on envoyait, c’est-à-dire que c’est important de construire une archive — qu’est-ce que c’est une archive ? C’est vraiment une plateforme dont la finalité est l’archivage et pas autre chose — que c’était nécessaire. Après ces deux évènements c’est devenu relativement clair pour tout le monde que c’était nécessaire d’aller dans cette direction-là.
La troisième chose qu’on avait observée c’est qu’effectivement aujourd’hui, non seulement le logiciel est au cœur de toute la transformation numérique de notre société, mais le logiciel libre est au cœur des logiciels qui transforment notre société. Presque toutes les entreprises utilisent du logiciel libre de façon massive encore aujourd’hui, donc il est devenu super important, par exemple, de se doter d’une plateforme qui permette d’analyser systématiquement le code source de ces logiciels pour essayer de repérer les erreurs, les vulnérabilités, rendre plus facile l’analyse des codes, aider les développeurs à mieux réutiliser leurs codes, etc. Pour ça on a besoin d’une plateforme commune qu’on n’a jamais réussi à construire avant.
Par exemple j’ai plein d’amis qui sont dans le monde de la physique : un de mes copains, parti aux États-Unis il y a très longtemps, s’occupe d’un gros projet de télescope spatial. Je suis très admiratif de mes collègues en physique qui sont capables de mobiliser des ressources très conséquentes, là on parle de milliards, de dizaines de milliards d’euros pour chercher à comprendre l’origine de l’univers, regarder les étoiles, regarder l’infiniment petit. Ça c’est super important, je n’ai rien contre, au contraire, je suis très admiratif du fait qu’ils arrivent à le faire. Par contre nous, dans le monde de l’informatique qui est pourtant le moteur de la transformation numérique, jusque-là on a été un peu incapables de fédérer le même type d’effort pour avoir une plateforme commune qu’on puisse, de façon mutualisée, réutiliser pour travailler ensemble, pour améliorer la qualité des logiciels que nous développons.
Évidemment chaque grosse entreprise a son propre système interne. Dans le monde associatif chacun essaie de mettre en place son propre outil technique à tel ou tel autre endroit. Le rêve serait d’arriver à faire quelque chose comme le CERN pour la recherche nucléaire ou les grands réseaux de télescopes spatiaux pour explorer les galaxies. Eh bien nous on a besoin d’une infrastructure pour explorer la galaxie du logiciel. Aujourd’hui ça n’existe pas.
Donc c’était vraiment ces trois constats : pas de catalogue, pas d’archive, pas d’infrastructure de recherche, la situation n’était pas idéale, donc il fallait essayer de faire quelque chose. En mettant en place le projet Software Heritage on essaye, très humblement parce qu’on n’est pas Google, on n’a pas de dizaines de milliards comme certains de mes copains qui travaillent ailleurs, mais on essaye très humblement de construire une réponse à ces trois besoins et de le faire en essayant de mettre de notre côté tous les atouts pour minimiser les risques que le projet échoue, c’est-à-dire pour maximiser les chances de succès.
Frédéric Couchet : Tu dis « on ». Le projet a été annoncé par l’Inria et, comme je l’ai dit tout à l’heure, tu es détaché à l’Inria depuis quelques années.
Roberto Di Cosmo : Tout à fait.
Frédéric Couchet : Qui est ce « on » ? C’est-à-dire qui a lancé ce projet en dehors de l’Inria s’il y en a d’autres ? Qui sont les partenaires ? Comment est financé ce projet ? Tu as parlé d’une équipe. Je suppose que tu as une équipe, je ne sais pas, de 500 personnes pour travailler avec toi.
Roberto Di Cosmo : J’aimerais bien ! Dans le monde de l’informatique, comme tu le sais bien, très souvent la révolution est faite par un tout petit nombre, on grandit plus tard.
Frédéric Couchet : C’est quoi l’équipe Software Heritage ? Essaye de nous expliquer qui est ce « on ».
Roberto Di Cosmo : Je vais vous expliquer. Tu as mentionné l’IRILL. Effectivement dans cette structure qu’on avait mise en place en 2010 pour essayer de tisser des liens entre des communautés de développeurs, des entreprises, des chercheurs qui s’intéressent au problème nouveau, scientifique, qui vient quand on fait du développement de logiciel libre, dans l’été 2014, autour de la machine à café, tu sais qu’on dit souvent que les développeurs sont des machines qui convertissent du café en code, mais des fois on le convertit en idées plutôt qu’en code directement.
Frédéric Couchet : Ou des pizzas en code, des fois.
Roberto Di Cosmo : Ou des pizzas ou des boissons socialisantes quelconques, ça dépend, il n’est pas nécessaire de prendre de la caféine tout le temps. Là on discutait de plein de choses. À partir d’autres idées, d’autres projets de recherche qu’on avait en tête, on s’est aperçu qu’il y avait ce problème et on a passé plusieurs mois à discuter à plusieurs. Moi à l’origine, il y avait Guillaume Rousseau, il y avait Stefano Zacchiroli, il y avait d’autres personnes qui se sont greffées dessus petit à petit et on a identifié le problème, on a écrit des notes d’opportunité, on pourrait dire, qui faisaient un bilan de la situation. Parce que, même si le problème existe, ça ne veut pas dire que nous sommes capables de le résoudre, n’est-ce pas ! La question est de se dire : le problème est là, est-ce que vraiment on a les reins solides pour essayer d’aller dans cette direction-là et comment on peut faire, qu’est-ce qui existe ? Sur la base de ces notes-là, on a pensé qu’il y avait une opportunité de faire quelque chose de bien avec un peu de ressources initiales.
Avec ça j’étais allé voir le directeur de l’Inria à l’époque qui était Antoine Petit, et là il faut dire qu’effectivement, ça fait des fois partie de la chance, qu’il a été convaincu de l’opportunité de cette mission donc il a pris la décision de donner cette impulsion initiale.
Tu vois quand on dit « on », il y a des gens qui ont des idées, mais des idées sans les ressources pour les implémenter, il y a plein dans les tiroirs !
Frédéric Couchet : Le soutien du directeur a été un grand atout évidemment.
Roberto Di Cosmo : Un grand atout, mais aussi toute l’institution. L’Inria est une institution qui à l’origine avait été capable, il y a 22 ans, de soutenir le lancement du W3C, le World Wide Web Consortium qui est le consortium mondial qui maintient les standards du Web et qui a permis au Web de devenir ce qu’il est devenu maintenant. Donc ils ont déjà montré leur capacité à soutenir un projet sur le long terme et de façon partenariale, pas en disant : c’est à moi, c’est à l’Inria.
Frédéric Couchet : Pas tout seul.
Roberto Di Cosmo : Mais en disant : OK on travaille à plusieurs. Ça c’était un peu le début. Là on a commencé à avoir un peu de ressources pour travailler. Quand je dis un peu de ressources c’était juste un ingénieur, Antoine Dumont qu’on avait recruté comme premier ingénieur. Il y a Nicolas Dandrimont, qui était dans l’émission la semaine passée, qui nous a rejoints quelques mois après et là on a commencé un petit peu à construire. Mais la mission, dès le départ, était de ne pas être tout seuls, de ne pas être juste Inria. Il fallait avoir d’autres partenaires autour. Donc là c’était un travail énorme, si tu regardes l’historique on n’est pas encore public, on est en train de parler 2015, avant l’annonce en 2016 et là on essaye de contacter plein d’entités : la Free Software Foundation, on a contacté l’Open Source Initiative, on a contacté Creative Commons, on a contacté des sociétés savantes, françaises, européennes, internationales ; on a contacté des fondations comme la fondation Linux, la fondation Eclipse, plein d’autres instituts comme ça pour leur dire ce qu’on allait faire, pour savoir si elles allaient nous soutenir.
Frédéric Couchet : Si elles voulaient soutenir, participer.
Roberto Di Cosmo : Là on a obtenu un soutien qui était important mais qui était un soutien moral, pas financier, il faut quand même payer le développeur à la fin du mois, ça ne suffit pas d’être un soutien moral, mais c’est très important.
Frédéric Couchet : En tout cas ces structures qui sont des structures importantes dans le monde du logiciel libre ont considéré que ce projet était fondamental, donc qu’il fallait le soutenir au moins moralement, déjà.
Roberto Di Cosmo : Exactement. Donc là si tu vas sur le site de Software Heritage aujourd’hui, wwww.softwareheritage.org, tu vas regarder dans la partie soutiens, il y a des témoignages. Il y a une cinquantaine de lettres officielles de tout un tas d’entités diverses et variées qui disent pourquoi elles considèrent que le sujet est important et pourquoi le projet est structurant pour elles.
Là on avait déjà commencé à avoir des premiers contacts avec l’Unesco, parce que c’est quand même une mission universelle, c’était bien de travailler avec eux. Mais ça ne suffisait pas, il fallait chercher des partenaires qui partagent la charge financière d’un tel projet avec Inria, dont la vocation est de lancer le projet mais pas, quand même, de le maintenir pendant 50 ans en payant tout, tout seul. Ce n’est pas, comment dire, ce n’est pas soutenable et ce n’est pas souhaitable non plus si tu veux minimiser les risques d’échec.
Frédéric Couchet : Pour la pérennité du projet il faut qu’il y ait plusieurs acteurs, plusieurs partenaires.
Roberto Di Cosmo : Il faut plusieurs partenaires autour de la table. Et c’est là que ça devient paradoxal, parce qu’on avait contacté, je ne vais pas donner les noms, mais un certain nombre d’acteurs, même des grandes entreprises qui utilisent massivement du logiciel libre, même des grands acteurs industriels du logiciel libre, mais, grande surprise, au mois de juin au moment où il fallait devenir public, personne de ceux-là n’avait répondu présent. Peut-être qu’ils considèrent que développer du logiciel libre ça suffit, ce n’est pas la peine de s’occuper de le maintenir sur le long terme. Et, à ma grande surprise, c’était par contre Microsoft qui avait répondu présent.
Frédéric Couchet : Donc tu vas renouer des liens avec Microsoft à cette époque-là !
Roberto Di Cosmo : Et ça c’était drôle, parce que je n’aurais jamais dit il y a 20 ans que je me serais retrouvé à Redmond, à Seattle au siège de Microsoft avec tout le top management de Microsoft pour leur dire pourquoi c’était intéressant de soutenir un tel projet. Mais c’était quand même une expérience intéressante parce que là j’ai découvert un Microsoft qui n’est pas tout à fait le même que celui que j’avais connu il y a 20 ans. Il y a eu un changement complet de direction et j’ai découvert qu’il y a, je ne sais pas si je peux dire ça, mais je pense que ça doit être facile avec toi.
Frédéric Couchet : Nous sommes en direct, je te préviens !
Roberto Di Cosmo : Je ne vais pas le dire, il y avait un nombre très conséquent d’ingénieurs à Microsoft, déjà en 2015, qui travaillaient en faisant seulement du logiciel libre. Après c’est devenu public. Dans l’été 2016, Microsoft a été l’un des premiers contributeurs à des projets logiciel libre sous GitHub à la grande surprise de tout le monde, c’est devant tout le monde ! Qu’est-ce qui se passe ? Tout le monde a le droit de changer d’idée, n’est-ce pas, de temps à l’autre !
Frédéric Couchet : Au moins partiellement on va dire !
Roberto Di Cosmo : Je vais y venir. Au moins sur la partie technique, le développement technique, stratégie industrielle à long terme, ils ont vraiment complètement changé d’attitude, complètement. Après il reste tout un tas d’autres choses sur lesquelles on pourrait débattre longuement. Restons sur la partie positive. On a retrouvé un point d’intérêt commun, donc ils ont été les premiers acteurs industriels à répondre présent.
Par contre le deuxième acteur qu’on avait mentionné, l’Archive nationale de l’Académie des sciences hollandaise, c’est une institution publique donc c’était tout à fait naturel de la retrouver à nos côtés parce que leur mission c’est d’archiver les données de la recherche en Hollande ; ils ont énormément de demandes de la part de chercheurs qui disent : « Bon, très bien, archiver des données c’est très bien, mais qu’est-ce que je fais avec mes logiciels ? Où est-ce que je mets mes codes sources ? » Ils avaient des demandes comme ça, ils ne savaient pas exactement comment les traiter. Quand ils ont découvert ce qu’on faisait dans Software Heritage, ils ont sauté immédiatement sur l’occasion en disant : il faut qu’on travaille ensemble. Maintenant on travaille ensemble dans un projet européen, par exemple. C’est naturel de trouver ces deux-là, mais ça ne suffisait pas, il fallait élargir. Si vous regardez sur le site aujourd’hui il y a un certain nombre de sponsors qui sont arrivés : on s’est retrouvé Intel aussi qui est devenu sponsor ; on a retrouvé GitHub, évidemment.
Frédéric Couchet : Une archive d’hébergement de code.
Roberto Di Cosmo : GitHub qui est une plateforme de développement de code.
Frédéric Couchet : Et une société aux Pays-bas, si je me souviens bien.
Roberto Di Cosmo : GitHub est à San Francisco.
Frédéric Couchet : San Francisco d’accord.
Roberto Di Cosmo : Et a été racheté par ailleurs, c’est le monde à l’envers ; ça a été racheté par Microsoft cet été pour 7 milliards de dollars, c’est assez intéressant.
Frédéric Couchet : Ah ! Tu parlais de GitHub, excuse-moi.
Roberto Di Cosmo : GitHub, oui, tout à fait.
Frédéric Couchet : D’accord. Je croyais que c’était GiLab, excuse-moi.
Roberto Di Cosmo : Non, GitLab c’est autre chose. On a des contacts avec GitLab aussi, on a archivé aussi GitLab. Donc on a élargi petit à petit disons l’ensemble des partenaires, des sponsors, qui sont tous des mécènes. C’est-à-dire que ce qu’ils font ce sont des donations, il n’y a pas de contreparties. Ils font vraiment des financements qui servent à faire grandir le projet parce qu’ils trouvent que c’est une infrastructure…
Frédéric Couchet : Donc c’est de la contribution financière ou est-ce que c’est aussi de la contribution humaine avec la mise à disposition de personnel ?
Roberto Di Cosmo : Pour l’instant c’est essentiellement de la contribution financière, il n’y a pas de mise à disposition de personnel. La mise à disposition de personnel c’est compliqué.
Frédéric Couchet : Oui, mais ça aurait pu être.
Roberto Di Cosmo : Ça aurait pu être, mais ça commence à arriver : on commence à avoir des contributions qui viennent de certaines entreprises, mais pas vraiment du personnel qui est mis chez nous.
Frédéric Couchet : Donc ça permet de financer une équipe de combien de personnes aujourd’hui, pour Software Heritage ?
Roberto Di Cosmo : Aujourd’hui si tu regardes sur le site de Software Heritage tu trouveras, je ne veux pas dire de bêtises, mais je pense que tu vas trouver probablement 14 ou 15 photos.
Frédéric Couchet : D’accord.
Roberto Di Cosmo : Peut-être un peu plus parce que sur le site web on a mis aussi le conseil scientifique. Donc ça fait quand même une dizaine de personnes qui travaillent sur le projet à temps plein. On a un peu grandi depuis l’époque où on était deux-trois.
Frédéric Couchet : La machine à café s’est un peu agrandie.
Roberto Di Cosmo : La machine à café est toujours là, elle s’est un peu agrandie, et on est accueilli dans de très bonnes conditions chez Inria pour pouvoir travailler sur le projet.
Frédéric Couchet : Donc l’équipe est physiquement, toutes les personnes sont ici à Paris ?
Roberto Di Cosmo : Physiquement ici à Paris, dans les locaux d’Inria, pour l’instant accueillis là, ce n’est pas forcément la position définitive. Ce qu’il faut quand même remarquer c’est que les dix à temps plein qui sont là maintenant – c’est seulement maintenant qu’on est arrivés à dix, on s’est agrandis petit à petit – on fait quand même un travail qui est énorme. On peut penser que dix c’est beaucoup, mais en réalité on est tout petits par rapport à la mission monstre qu’on s’est donnée. Effectivement il y a tout un tas de questions à se poser : quelle garantie d’y arriver à long terme ? Quelle stratégie mettre en place pour pouvoir travailler sur tout ça ? Je dois dire quand même que la première étape est d’avoir toutes les personnes qui sont dans l’équipe qui sont extrêmement motivées pour travailler là-dedans. Nicolas qui était là la semaine passée est un ancien acteur du monde du logiciel libre, Stefano Zacchiroli a été leader du projet Debian pendant trois ans.
Frédéric Couchet : Leader du projet Debian.
Roberto Di Cosmo : C’est un chercheur magnifique. Il y a d’autres personnes qui sont motivées. Des fois il n’y a pas que l’argent qui fonctionne.
Frédéric Couchet : Tout à fait.
Roberto Di Cosmo : Des fois il y a une vraie motivation et c’est ça qui aide beaucoup.
Frédéric Couchet : C’est une bonne conclusion pour cette première partie d’émission. On va faire une pause amicale. Nous allons écouter Mountains par Cud Eastbound et on revient juste après ça.
Pause musicale : Mountains par Cud Eastbound.
Frédéric Couchet : Vous êtes de retour sur Cause Commune 93.1 en Île-de-France et partout dans le monde sur causecommune.fm. Vous écoutez l’émission Libre à vous !, l’émission pour comprendre et agir avec l’April l’association de promotion et de défense du logiciel libre. Nous venons d’écouter Mountains par Cud Eastbound qui est disponible en licence Creative Commons Partage à l’identique. J’en profite pour rappeler que toutes les musiques que nous diffusons sont librement partageables, y compris pour des usages commerciaux. Vous retrouvez la référence sur le site de l’April donc april.org.
Je suis toujours en compagnie de Roberto Di Cosmo, professeur d’informatique et directeur de l’initiative Software Heritage. Nous allons poursuivre la discussion. Nous avons parlé, avant la pause musicale, un petit peu d’où venait le projet, les raisons pour lancer ce projet, où ce projet en est, où cette initiative en est aujourd’hui avec une équipe certes réduite mais de gens très motivés et de libristes de longue date, on a cité plusieurs noms. Maintenant on va parler un petit peu du fonctionnement de Software Heritage du point de vue technique et puis du futur.
Peut-être première question, Roberto, Software Heritage est une archive, tout à l’heure tu disais que le but c’était de garantir la pérennité de ces codes sources, patrimoine culturel, économique, industriel et scientifique. Cette archive est hébergée sur les internets, comme on dit, quelque part. Est-ce qu’elle est sur plusieurs sites ? Comment techniquement ça fonctionne ?
Roberto Di Cosmo : Effectivement c’est une très bonne question. Quand on réfléchit à un projet comme Software Heritage on se place dans une logique de long terme. La question de comment maintenir l’information à long terme est cruciale. Il y avait essentiellement deux choix qu’on pouvait faire au début. Un premier choix aurait été de dire : on construit un super datacenter, un centre de données ultra-sécurisé, complètement caché.
Frédéric Couchet : Une solution à la française quoi !
Roberto Di Cosmo : Pas à la française. On prend les meilleurs ingénieurs du monde, on cache tout et on dit à tout le monde : « C’est secret il n’y a rien à voir, on est les meilleurs du monde, on ne sera jamais piratés, on ne perdra jamais de données, on ne fera jamais d’erreurs, etc. » À nouveau, comme j’ai un peu de poils blancs dans la barbe, je sais très bien qu’en général ce type d’approche marche peu. Donc j’ai dit : je ne suis pas capable de le faire fonctionner comme ça. Donc on a préféré prendre une stratégie différente qui est de dire : on sait qu’il y aura des erreurs, on sait qu’il y aura des pertes de données, on sait qu’il y aura des problèmes. Il peut y avoir un centre de données qui brûle, il peut y avoir un tremblement de terre, il peut y avoir un pirate qui rentre dedans qui détruit des données, on peut avoir des problèmes, c’est inévitable, ça fait partie de la vie donc il faut structurer le projet de telle façon qu’il résiste à ce type d’erreurs, qui soit résilient sur le long terme. Qu’est-ce que ça veut dire ?
La base de notre stratégie est :
un, de faire en sorte que toute l’infrastructure qu’on construit, nous, soit entièrement faite en logiciels libres pour rendre plus facile à d’autres de la répliquer ailleurs ;
deux, d’avoir un réseau de miroirs au niveau planétaire dans lesquels l’ensemble des données que nous collectons est réparti et distribué. Et là on utilise en particulier une terminologie qui est un peu particulière dans notre projet, on ne l’a pas formalisée, mais on peut la partager dès aujourd’hui, on utilise le terme copie pour une copie entière de toutes les données qui sont dans l’archive mais qui sont sous notre responsabilité.
Donc, par exemple, aujourd’hui Software Heritage dispose de trois copies de l’archive : deux qui sont dans les locaux de l’Inria, chez nous, et une qui est sur une plateforme Azure qui est sponsorisée par Microsoft.
Frédéric Couchet : Donc ce sont les mêmes données.
Roberto Di Cosmo : Ce sont les mêmes données mais sur trois endroits différents.
Frédéric Couchet : Qui sont sur trois infrastructures physiques différentes.
Roberto Di Cosmo : Sur trois infrastructures différentes, mais les infrastructures, toutes les trois, sont sous notre contrôle, sous le contrôle de l’organisation Software Heritage aujourd’hui. Le fait que ça soit à trois endroits physiquement différents et pas forcément la même technologie — si tu vas sur Azure, même si c’est une base Debian, en réalité la techno qui est derrière (les machines, etc.) c’est différent de chez nous —, c’est un peu rassurant. Mais imagine qu’on devienne tous fous, les dix de l’équipe décident de tout détruire et de tout brûler, une sorte de Samson « Que je meure avec les Philistins », comme on dit, on pourrait le faire. Donc il faut quand même se protéger de ce dommage-là. Donc là on a besoin de ce qu’on appelle des miroirs. Qu’est-ce que c’est un miroir ? Un miroir, pour nous, c’est une copie mais qui est sous le contrôle administratif et technique de quelqu’un d’autre. Sous une entité qui n’est pas Software Heritage, mais avec qui, évidemment, on a passé des accords pour les questions d’éthique, juridiques, etc., mais qui n’est pas nous.
C’était dans notre plan depuis le départ et en décembre passé, il y a quelques semaines, on a annoncé qu’on a signé le premier accord pour la création d’un miroir. Ça sera en Suède, ça sera porté par une société qui s’appelle FOSSID. Ce n’est pas encore fait, la partie technique est à développer, mais au moins l’accord est là, et on met la première pierre de ce réseau de miroirs qui va nous protéger de la perte de données.
C’est très intéressant d’en parler aujourd’hui. Tu as mentionné la réforme du droit d’auteur. Il y a plusieurs dangers qui guettent un projet comme le nôtre. Il y a des dangers techniques, par exemple tu as cassé un disque, tu as perdu des choses, tu t’es trompé dans le logiciel qui a corrompu toutes les données, ce sont des choses qui peuvent arriver, mais il y a des risques, d’une certaine façon, plus subtiles, plus néfastes qui sont des risques juridiques. Il se peut qu’un miroir, une copie de l’archive, se trouve dans un pays ou dans une zone géographique dans lesquels, à un moment donné, sont passés des textes de loi qui rendent difficile voire impossible, voire illégal, de faire ce travail d’archivage. Et c’est effectivement ce qui est en train d’arriver avec cette fameuse réforme du droit d’auteur, un article 13 qui oblige toutes les plateformes qui partagent du contenu couvert par le droit d’auteur de mettre en place des filtres avec des autorisations, il y a un droit qui est très contraint, on ne va pas rentrer dans ça, ce n’est pas le sujet aujourd’hui.
Frédéric Couchet : Je précise qu’on en parlera la semaine prochaine avec Anne-Catherine Lorrain qui travaille pour le groupe des Verts au Parlement européen parce que cette semaine il y a une négociation interministérielle au niveau européen qui se déroule donc on en saura plus à la fin de la semaine et la semaine prochaine on fera un point là-dessus.
Roberto Di Cosmo : Absolument. Donc effectivement ce débat-là nous a pris, côté Software Heritage, pas mal de temps parce qu’on le voyait comme un danger : pour le travail qu’on est en train de faire c’est un vrai danger ! Donc le fait d’avoir des miroirs dans d’autres juridictions ça protège aussi de ces risques juridiques ; il n’y a pas seulement les risques techniques. Cela dit, ça c’est l’objectif, il faut y arriver. Ça prend un peu de temps d’y arriver, je vous signale.
Frédéric Couchet : Ça c’est l’objectif. Donc le principe technique, on va le répéter pour que les personnes comprennent bien : il y a trois archives sous le contrôle du projet Software Heritage : deux sont sur une infrastructure Inria, une sur une infrastructure Azure Microsoft et, en plus de cela, il y a un principe de miroirs sur lesquels Software Heritage n’a pas d’accès on va dire direct de contrôle.
Roberto Di Cosmo : En écriture.
Frédéric Couchet : À part un contrat et le premier projet de miroir c’est FOSSID. FOSSID ça veut dire free open source software ?
Roberto Di Cosmo : Non. C’est une entreprise qui est en Suède qui fait de l’analyse de code pour des questions de licences.
Frédéric Couchet : D’accord. Donc ils sont intéressés. Donc on voit l’intérêt du projet : ce sont des gens qui sont intéressés aussi par rapport à l’analyse de code qui est un point très important. On pourrait imaginer que des universités soient intéressées pour les étudiants, pour mettre à disposition, parce qu’on sait très bien – on a appris l’informatique tous les deux, toi peut-être un petit peu avant moi, comme tu le dis assez, avec ta barbe un peu blanche – que souvent la meilleure façon d’apprendre eh bien c’est de regarder ce qui a été fait par d’autres personnes. Donc des universités pourraient être intéressées par cette masse de code disponible.
D’ailleurs j’ai une question avant de poursuivre sur la partie archive miroir, est-ce que ce ne sont que des logiciels libres ? Est-de que ce ne sont que des codes sources de logiciels libres qui sont hébergés dans le projet ou est-ce que ça peut être des codes sources d’autres logiciels ?
Roberto Di Cosmo : C’est une très bonne question. Je vais même généraliser la question. La question est de savoir comment on décide de ce qui mérite d’être archivé dans l’archive de Software Heritage. Effectivement la position qu’on a prise dans Software Heritage c’est quelque chose qui fait un peu dresser les cheveux sur la tête quand j’en parle avec des gens qui sont habitués à de l’archivage traditionnel, que ça soit dans des bibliothèques ou ailleurs. Nous on a pris une position très particulière : on essaye d’archiver tous les codes sources qui sont publiquement disponibles, c’est-à-dire auxquels on peut avoir accès, donc on ne filtre pas spécialement sur le fait qu’ils soient des beaux logiciels ou des logiciels pas très beaux, ou que la licence permette explicitement la redistribution donc qui soient vraiment des logiciels libres, ou que ça soit juste des codes qui ont été mis à disposition dont la licence n’est pas super claire, etc.
Frédéric Couchet : Mais elle permet au moins de faire la copie du code.
Roberto Di Cosmo : Au moins de faire la copie. L’idéal ça serait à terme d’arriver à avoir vraiment tous les logiciels, même les anciens, parce si tu veux les logiciels qui sont propriétaires aujourd’hui, tant qu’on ne change pas encore une fois le droit d’auteur.
Frédéric Couchet : Qu’on n’étend pas le droit d’auteur.
Roberto Di Cosmo : Au-delà de ce qui est raisonnable.
Frédéric Couchet : Au-delà de ce qui est raisonnable, ce qui est déjà le cas, nous sommes d’accord.
Roberto Di Cosmo : Normalement au bout de 70 ans ils deviennent du domaine public.
Frédéric Couchet : Après la mort de l’auteur.
Roberto Di Cosmo : Oui. En réalité pour les logiciels industriels c’est à partir de leur mise sur le commerce.
Frédéric Couchet : Ah pour les logiciels industriels, d’accord.
Roberto Di Cosmo : Oui, les logiciels industriels. Et effectivement après la mort de l’auteur c’est un peu compliqué, mais l’idée ça serait mieux de les avoir, question de pouvoir les mettre à disposition plus tard. Là j’aurais plein d’anecdotes à raconter, mais je ne vais pas les raconter maintenant.
Frédéric Couchet : Oui, parce que sinon on n’aura pas le temps dans l’émission. Ce sera pour une deuxième émission. Donc c’est tout le code, en fait, qui est disponible sur Internet.
Roberto Di Cosmo : Voilà. On essaye de le collecter et maintenant on a ouvert plein de pistes c’est-à-dire techniquement, je vais donner quelques éléments techniques supplémentaires. Pour les grandes plateformes de développement comme GitHub qui est très populaire aujourd’hui ou GitLab ou même la forge Inria ou même Framagit qui est la forge mise à disposition par Framasoft ici en France, ce qu’on fait on met en place un mécanisme de moissonnage automatique. C’est-à-dire qu’on va collecter tous les logiciels qui sont disponibles là-dessus et on les intègre automatiquement. Par contre on a aussi rajouté des pistes pour pouvoir, de façon explicite, déposer des logiciels, par exemple des logiciels développés dans la cadre de la recherche académique, pouvoir les déposer.
Là on a fait un partenariat avec un portail national qui s’appelle HAL. C’est une sorte de portail open access pour l’accès ouvert aux publications et maintenant il y a un mécanisme pour déposer aussi du code scientifique dedans. Et plus récemment on a ouvert un mécanisme qu’on appelle, tu me passeras l’anglais, save code now.
Frédéric Couchet : Sauvegardez votre code maintenant.
Roberto Di Cosmo : Maintenant. Donc c’est possible de nous indiquer qu’il y a certains endroits dans lesquels il y a du code important et, en nous indiquant cette piste-là, nous, après, on le rajoute aux moissonneurs.
Frédéric Couchet : Oui, parce qu’évidemment Software Heritage ne peut pas avoir connaissance de tout le code qui existe sur Internet, ça paraît compliqué. J’ai une question sur les plateformes d’hébergement de logiciels que tu as citées, est-ce que ces plateformes donnent un accès complet, exhaustif, à l’ensemble des codes qui sont hébergés ? C’est-à-dire est-ce que Software Heritage a une certitude, en fait, de pouvoir récupérer tout le code que ces plateformes hébergent, d’un point de vue technique ?
Roberto Di Cosmo : D’un point de vue technique la réponse est oui. Disons que techniquement c’est compliqué, on ne va pas rentrer dans les détails, mais oui on peut y arriver. Par exemple tout ce qui est disponible publiquement sur GitLab ou sur GitHub, etc., techniquement on pourrait être capables d’obtenir absolument tout et d’être à jour même très rapidement. Après il ne faut pas oublier qu’on est une petite équipe, qu’on a commencé avec des ressources relativement limitées ; si on avait des milliards on ferait beaucoup plus. On n’a pas des milliards !
Frédéric Couchet : Ma question n’est pas forcément sur l’équipe.
Roberto Di Cosmo : Est-ce qu’il y a un filtre qui nous a empêche de l’obtenir ?
Frédéric Couchet : Est-ce que la plateforme d’hébergement propose déjà une liste exhaustive de ces projets en disant là c’est facile de récupérer ?
Roberto Di Cosmo : Les plateformes plus récentes comme GitLab ou GitHub fournissent effectivement une interface accessible pour les machines, ce qu’on appelle des API, c’est-à-dire une interface de programmation qui permet de lister les contenus. Donc on a au moins accès à la liste des contenus qui sont disponibles et après, si on peut suivre les évènements, on peut télécharger les choses de façon plutôt raisonnable. Les anciennes plateformes comme SourceForge qui existait déjà il y a 20 ans et qui sont un peu…
Frédéric Couchet : Sur le déclin !
Roberto Di Cosmo : Pas sur le déclin, il y a encore des logiciels très importants qui sont développés dedans.
Frédéric Couchet : Oui, il y en a plein !
Roberto Di Cosmo : Par contre ils n’ont même pas ça, ils n’ont même pas une interface qui permet de lister les contenus. Donc là c’est assez compliqué, il faut aller travailler avec eux pour obtenir les choses, on ne l’a pas encore fait, ça fait partie de la roadmap et c’est beaucoup d’efforts pour pas grand-chose comme résultat.
Frédéric Couchet : Ça pourrait être un effort de SourceForge ou des personnes qui maintiennent SourceForge de proposer ça.
Roberto Di Cosmo : Exactement. De proposer cette interface.
Frédéric Couchet : Effectivement, peut-être que quand ils ont créé ce genre de plateforme ils ne sont pas mis en tête : tiens il y a un Roberto Di Cosmo qui arrivera un jour pour pouvoir archiver tout ce qu’il y a dessus, donc ils n’ont pas proposé cette simple information sur l’ensemble des projets qui sont disponibles sur la plateforme. Donc c’est à ces structures-là de faire ce travail.
Roberto Di Cosmo : Là, au passage, j’en profite pour dire merci à l’ADULLACT, on a travaillé avec elle.
Frédéric Couchet : L’association des développeurs et utilisateurs de logiciels libres dans l’administration et les collectivités territoriales françaises.
Roberto Di Cosmo : Très bien. Je vois que tu te rappelles l’acronyme, c’est super, et qui a aidé à développer une sorte de plugin, un greffon qui a été rajouté sur la technologie des forges qui s’appelle FusionForge qui est une évolution de SourceForge et qui fait en sorte que maintenant il est possible de moissonner les contenus qui sont une instance de FusionForge, en particulier celle de l’ADULLACT a mis en place ça. Donc ça fait partie de ce travail collaboratif dans lequel je vais essayer juste d’arriver à dire ça clairement : la mission qu’on s’est donnée est quand même énorme, herculéenne et on n’y arrivera jamais si on le fait tout seuls. Donc toute la stratégie du projet est de rendre facile et possible à tout le monde de participer.
Frédéric Couchet : Tu parles de l’ADULLACT. Le 8 janvier on recevait Laurent Joubert et Mathilde Bras de la DINSIC, la Direction interministérielle du numérique et de la société de l’information et de la communication, j’ai un petit doute sur l’acronyme interministérielle du numérique et du système d’information et de communication, en tout cas on va dire la direction informatique de l’État et Laurent Joubert avait annoncé qu’il y avait un partenariat qui se créait entre la DINSIC et Software Heritage pour que Software Heritage archive les codes sources publiés par l’administration.
Roberto Di Cosmo : Absolument. Ça c’est l’objectif, ce qu’on fera. Si tu veux dans l’État français, normalement, il y a une obligation d’archivage des données publiques en particulier, donc il y a des Archives nationales ; maintenant quand on passe dans le monde numérique, il faut avoir des archives numériques. Il y a tout un tas d’initiatives pour archiver plein d’informations numériques de l’État français. Pour ce qui concerne les codes sources des logiciels l’idée que tout ça soit archivé dans Software Heritage qui est une plateforme qui n’archive pas seulement les codes sources de l’administration mais aussi les codes sources de l’administration française ; pas la peine d’en faire 42 ! L’idée c’est de les remettre ensemble et de travailler en bonne entente avec les services de l’État pour faire en sorte que les différentes plateformes de développement qui sont un peu éparpillées dans les différents ministères, dans différents endroits, soient toutes tracées, indexées, pour permettre l’archivage systématique dans Software Heritage.
Frédéric Couchet : Tout à l’heure tu as dit que quand le projet a été lancé en 2016 il y avait, si je me souviens bien, un milliard de codes sources ou de lignes.
Roberto Di Cosmo : Un milliard de fichiers.
Frédéric Couchet : Un milliard de fichiers. Aujourd’hui est-ce qu’il y a des statistiques sur le nombre de projets qui sont archivés par mois pour donner un ordre d’idée de la progression ?
Roberto Di Cosmo : Bien sûr. Nous on est très logiciel libre, très transparents, très ouverts. Si tu vas sur le site web qui est www.softwareheritage.org/archive, donc tu vas dans l’archive, tu trouveras des jolis graphiques qui sont à jour, qui montrent que maintenant on doit être à 88 ou 89 millions de projets indexés. À peu près 5 milliards et demi de fichiers sources uniques. Il y a de jolis graphiques qui te montrent comment ça évolue dans le temps.
Frédéric Couchet : Comme on a Internet et que j’ai un ordinateur devant moi, effectivement les fichiers sources c’est 5 milliards, 6, visiblement ; ça représente 23 millions de personnes différentes, 88 millions de projets. On regarde et on voit un certain nombre de plateformes qui sont automatiquement archivées, tout à l’heure tu as cité GitLab, GitHub, il y a aussi Framagit que tu as cité, Debian, le projet GNU et puis d’autres projets. C’est sur softwareheritage.org/archive. Donc c’est une grosse progression.
Roberto Di Cosmo : Absolument.
Frédéric Couchet : Et je suppose que ça a un impact, tout à l’heure on parlait des données, sur la taille de l’archive. D’ailleurs j’ai une question peut-être un peu technique, le temps passe : est-ce que vous avez pour la conservation de ces fichiers qui viennent pour beaucoup, en fait, de plateformes d’hébergement qui utilisent Git, est-ce que vous êtes partis sur la même architecture technique ou est-ce que vous avez développé quelque chose de spécifique pour Software Heritage ?
Roberto Di Cosmo : C’est une très bonne question. L’idée, à nouveau, c’est qu’il faut se placer dans une logique de long terme. L’idée c’est d’essayer de ne pas réinventer des choses qui existent. Si tu inventes encore des standards différents c’est un peu compliqué, mais, par contre, essayer de réutiliser les meilleurs qui existent à chaque moment donné.
En particulier sur l’architecture technique des modèles de données qu’il y a derrière l’archive de Software Heritage c’est essentiellement le même modèle de données que tu as derrière Git mais avec une grosse différence c’est qu’on utilise ce même modèle de données pour tous les projets mélangés. Effectivement, peu importe d’où vient un fichier source, un répertoire, un commit, une release, etc., on mélange tout dans un énorme graphe dans lequel s’il y a un bout de projet qui a déjà été utilisé dans un endroit et on le trouve à un deuxième endroit on ne le copie pas, on ne le duplique pas, on garde juste la trace que c’est le même objet.
Frédéric Couchet : Ce qui permet de sauvegarder de l’espace disque.
Roberto Di Cosmo : Ça permet de réduire le coût, parce qu’un espace disque c’est monstrueux. Tout ce que vous voyez maintenant sur l’archive fait un peu plus de 200 téraoctets de données et quelques téraoctets de base de données pour le graphe central, ce qui est microscopique par rapport à ce que ça archive.
Frédéric Couchet : Par rapport à ce que ça archive.
Roberto Di Cosmo : Parce qu’il y a énormément de duplications dans le travail de développement d’un logiciel. On réutilise énormément des fichiers qui existent déjà dans d’autres projets, on fait ce qu’on appelle des forks, etc. Donc nous on a un modèle d’archivage qui est structuré exactement pour passer à l’échelle de ce mécanisme de fortes duplications diverses et variées.
Frédéric Couchet : Un fork c’est qu’on part d’un projet et on va en faire une version modifiée donc évidemment la version modifiée va avoir une bonne partie du code original parce que c’est le principe et c’est aussi l’un des principes du logiciel libre. Je précise juste que Git dont on parle depuis tout à l’heure c’est, en gros, un logiciel de gestion de versions décentralisé qui est très utilisé, qui date peut-être d’une quinzaine ou d’une vingtaine d’années maintenant.
Roberto Di Cosmo : Je ne veux pas dire de bêtise, je pense que c’est 2005-2006, c’est Torvalds qui avait fait ça.
Frédéric Couchet : Et c’est initialement développé par Linus Torvalds qui est aussi le développeur original du noyau Linux et qui est toujours, je crois, à la tête, du développement du noyau. Donc 200 téraoctets, ça peut paraître beaucoup, mais en fait, par rapport à ce que ça sauvegarde, c’est…
Roberto Di Cosmo : Mais attention quand même ça grandit, ça va grandir.
Frédéric Couchet : Oui, ça s’agrandit. Même si on peut espérer peut-être qu’une bonne partie des codes existants ont déjà été archivés. Le temps passe vite à la radio et le sujet est passionnant, mais tout à l’heure tu parlais des problèmes juridiques dont, notamment, la directive droit d’auteur et c’est vrai que dans le passé on a dû aussi passer pas mal de temps ensemble et avec d’autres à se battre pour nos libertés que ce soit contre les brevets logiciels ou d’autres trucs dans le genre. Quels sont les deux grands défis, on va dire technique et juridique peut-être, s’il y en a encore, pour Software Heritage aujourd’hui ?
Roberto Di Cosmo : Sur la partie technique effectivement, je prends une petite parenthèse mais ça vaut vraiment la peine. Au moment où on a lancé le projet on se disait bon, bref ! On construit cette infrastructure, on utilise un peu la technologie qu’on connaît aujourd’hui, on essaye d’utiliser la meilleure, bien sûr, avec des gens motivés et de très bon niveau, et après on utilisera tout ça pour faire de la recherche sur ces informations. Après on s’est aperçus, petit à petit, que l’infrastructure même que nous sommes en train de construire est un projet de recherche lui-même parce qu’il y a tout un tas de défis techniques qu’on n’imaginait pas tout à fait au moment où on a commencé. Finalement c’est une architecture distribuée dans laquelle on stocke une énorme quantité de fichiers qui sont relativement petits, on ne sait pas exactement ce qui est nécessairement standard dans le monde industriel d’aujourd’hui. Il y a des questions de réplication, de sûreté, il y a énormément d’indexation dans ces graphes très grands, comment construire des moteurs de recherche là-dessus, donc effectivement il y a énormément de défis ; il y en a plein. En même temps c’est un problème amusant parce que ça permet de faire venir, j’espère, d’attirer un certain nombre d’équipes de recherche qui cherchent des problèmes intéressants. Là il y en a plein ! Il faut qu’elles viennent.
Frédéric Couchet : C’est une base de données à gérer qui est monstrueuse, donc c’est intéressant.
Roberto Di Cosmo : Il y a plein de problèmes. Il faut juste savoir, et tu le sais bien, que dans le monde académique, on prend du temps. Entre le moment où tu intéresses quelqu’un au problème, le moment où les gens commencent à y travailler il se passe déjà un an, peut-être deux, et le moment où il y a un résultat que tu puisses industrialiser, mettre dedans, ça peut mettre quatre ou cinq ans. Mais ce n’est pas grave parce que nous on est dans une logique de long terme. L’idée c’est de créer vraiment une activité de recherche autour qui améliore l’infrastructure petit à petit. Après je ne veux pas rentrer trop dans la partie super technique.
Frédéric Couchet : Non. Et la partie juridique, à part le projet de directive droit d’auteur qui est un gros problème juridique mais dont on espère que ça sera terminé bientôt, est-ce qu’il y a d’autres défis juridiques ?
Roberto Di Cosmo : Je ne sais pas si j’appellerais ça vraiment des défis juridiques, c’est plutôt organisationnel. Je résume un peu cette idée. On se place dans une logique de long terme : comment construire quelque chose qui est vraiment résistant aux risques sur le long terme ? On l’avait déjà dit avant, on veut avoir plusieurs partenaires, on ne veut pas construire une entreprise qui peut-être rachetée ou peut faire faillite, on ne veut pas dépendre d’un seul acteur qui peut changer d’avis même s’il est très riche, comme c’était le cas de Google quand il a fermé Google Code, ce n’est pas juste une question d’argent, c’est aussi une question de stratégie.
Frédéric Couchet : Ça permet de rappeler que même si ce sont des grandes structures comme Google ou autre des fois ça peut fermer du jour au lendemain. On peut le rappeler à pas mal de personnes dont la vie informatique dépend de ces géants.
Roberto Di Cosmo : Oui ! C’est juste une décision qui est prise par une gestion. Ils ont sûrement leurs raisons. Il est important d’avoir une structure qui contrôle le projet, qui pilote le projet avec exactement la mission de faire seulement ce qui est dit dans le projet c’est-à-dire collecter, préserver, rendre disponibles les codes sources de toute la planète.
On réfléchit maintenant à la mise en place d’une stratégie pour devenir pérenne. Au début c’était un projet hébergé par Inria qui continue de nous soutenir. Maintenant on est dans une phase de transition, on commence à construire une infrastructure juridique qui est une fondation, en vérité, et à terme on veut arriver sur l’équivalent d’une structure de fondation dans laquelle on pourra avoir justement plusieurs partenaires qui travaillent ensemble avec une dotation pérenne pour faire en sorte que le projet soit viable à très long terme, que moi je puisse partir à la retraite, le plus vite possible, en allant pêcher tranquillement sans avoir à courir après les sponsors toutes les deux minutes !
Donc là c’est construire vraiment la bonne structure, ça prend effectivement du temps. Mettre en place la bonne organisation pour que ça fonctionne bien, ça prend du temps.
Une autre partie de la stratégie qui est très intéressante : quand on construit une infrastructure comme Software Heritage on ne s’intéresse pas seulement au monde de l’industrie, on ne s’intéresse pas seulement au monde de la recherche, on ne s’intéresse pas seulement au monde de la culture, on ne s’intéresse pas seulement au monde associatif, aux administrations publiques, en réalité on construit une infrastructure qui est au service de tous. Donc c’est vraiment important d’arriver à amener autour de la table — comme tu disais le cas de la DINSIC est très important — des administrations publiques, d’amener autour de la table des entreprises, d’amener autour de la table des entités comme l’Unesco qui sont intéressées à préserver le patrimoine logiciel, mais aussi énormément d’autres contributeurs. Par exemple l’année passée on a fait l’effort de mettre en place sur le site web du projet de Software Heritage un gros bouton rouge qui dit Donate. Même si quelqu’un veut donner dix euros pour soutenir le projet, c’est bienvenu, même si c’est petit ce n’est pas très grave ; l’important c’est diversifier au maximum.
Frédéric Couchet : Les sources de financement.
Roberto Di Cosmo : Les sources de financement pour minimiser le risque engendré par le fait que l’un ou l’autre des partenaires parte.
Et l’autre chose aussi c’est trouver un discours qui soit suffisamment audible auprès des entreprises, auprès d’autres entités, qu’elles soutiennent ce projet. Heureusement la France a sauvé la face parce que maintenant on a la Société Générale parmi les sponsors donc on a au moins un grand acteur français qui est présent. Par contre c’est vrai, ça aurait été sympa d’avoir d’autres acteurs qui utilisent énormément et massivement des logiciels libres qui deviennent partenaires du projet. Finalement c’est un super projet mondial qui a la cabine de pilotage à Paris, c’est assez étonnant de ne pas en trouver d’autres.
Frédéric Couchet : Finalement, si je reviens effectivement à ce que tu disais au début, les grands acteurs du logiciel libre que tu as contactés au début n’ont toujours pas embarqué le projet.
Roberto Di Cosmo : N’ont toujours pas répondu présent !
Frédéric Couchet : Est-ce que ces structures ont donné une raison, une explication ?
Roberto Di Cosmo : C’est toujours compliqué. Quand tu demandes aux gens de donner de l’argent gratuitement tu sais bien que ce n’est pas facile, ils ont toujours d’autres choses. Ils peuvent financer des évènements dans lesquels leur logo apparaît, ils peuvent financer d’autres choses. Mais là on est vraiment en train de construire une infrastructure au service de tous, donc il faut un petit peu de vision pour être capable de voir que l’investissement initial va rapporter beaucoup plus dans l’intérêt commun.
Et là, paradoxalement, à nouveau je suis assez étonné, mais Microsoft et Intel qui étaient quand même mes ennemis historiques il y a vingt ans, qui sont les deux premiers qui ont répondu présent, c’était surprenant. Au moins ils montrent qu’ils ont une vision. Après, la Société Générale, c’est un super partenariat.
Frédéric Couchet : Donc la Société Générale avoir un investissement dans le Libre très fort. Il faut le saluer.
Roberto Di Cosmo : C’est incroyable. Ils sont vraiment en train de changer leur stratégie interne dans laquelle ils mettent en place une stratégie pour le logiciel libre qui est remarquable. Dans ce cadre-là, le fait qu’ils soutiennent le projet ça me semble génial, mais je pense qu’il y a beaucoup plus à faire. Il faudrait que bien d’autres participent. On peut participer en donnant dix euros, mais on peut aussi participer en allant rajouter dans « sauver le code aujourd’hui » les bons pointeurs.
Frédéric Couchet : En proposant des sites sur lesquels il y a un code à archiver.
Roberto Di Cosmo : Des sites. Et on peut aussi, pour des gens qui veulent développer, contribuer, contribuer à construire les briques logicielles qui aident à tracer d’autres plateformes. C’est-à-dire on fait vraiment un effort maintenant pour essayer de documenter le code, rendre facile la participation ; ce n’est pas évident, c’est une grosse infrastructure, mais là aussi la contribution de la communauté est fondamentale pour que le projet prenne son essor à long terme.
Frédéric Couchet : Roberto, je te remercie. Ça me paraît être une belle conclusion un appel à soutien, en espérant que plein de gens y répondront et, en premier, que les structures qui développent des logiciels libres participent à ce projet. Est-ce que tu souhaites ajouter quelque chose avant qu’on passe à la pause musicale et qu’on change, pas tellement de sujet vu qu’on va parler un peu d’éducation après.
Roberto Di Cosmo : Je veux juste dire ça, je pourrais ajouter un élément : pour moi c’est très émouvant de me retrouver un peu dans la cabine de pilotage de ce projet, avec d’autres, je ne suis pas tout seul, il y a Stefano, il y en a plein d’autres qui aident, parce que c’est un moment magique. L’informatique est une discipline qui m’a toujours passionné et là on est à un point charnière dans cette histoire parce que le logiciel est né il y a une cinquantaine d’années, à peu près 50-60 ans. On a l’occasion unique de pouvoir reconstruire l’histoire de l’informatique, l’histoire de tous les logiciels qui sont arrivés à aujourd’hui et d’avoir l’infrastructure qui va permettre pour le futur de faciliter le développement des logiciels. Je pense qu’on est à point charnière. On a commencé il y a quatre ans à mettre en place ce qu’est Software Heritage, aujourd’hui on montre que c’est possible d’y arriver. Je pense que c’est la chose la plus passionnante qu’il ne m’est jamais arrivé de faire et j’espère, évidemment, que d’autres personnes se passionnent pour cette infrastructure et qu’on comprenne bien que ce n’est pas le projet de Roberto Di Cosmo, ce n’est pas le projet de l’équipe Software Heritage, ce n’est pas le projet d’Inria, ce n’est même pas le projet des sponsors du projet. C’est le projet de tout le monde, de toute une communauté qui trouve qu’il y a quelque chose qui est commun. Donc plus grand sera le nombre de personnes qui s’approprient le projet mieux ce sera dans l’intérêt de tous !
Frédéric Couchet : En tout cas j’espère qu’on a contribué modestement à faire connaître ce projet culturel, industriel, de recherche, d’éducation.
Roberto Di Cosmo : Merci de m’avoir fait venir.
Frédéric Couchet : Le point d’entrée c’est softwareheritage.org. Vous pouvez contribuer, Roberto a proposé pas mal de pistes de contribution et on aura sans doute l’occasion de refaire un point dans quelques mois sur la radio ou ailleurs.
Roberto Di Cosmo : Avec plaisir.
Frédéric Couchet : On va maintenant faire une pause musicale, mais Roberto reste avec nous parce que le sujet de l’éducation l’intéresse évidemment. Le morceau s’appelle Quand nous sommes à la taverne et le groupe s’appelle Ceili Moss. On revient juste après ça.
Pause musicale : Quand nous sommes à la taverne par le groupe Ceili Moss.
Interview de Jean-François Clair sur le projet de loi pour une école de la confiance
Frédéric Couchet : Vous êtes de retour sur l’émission Libre à vous ! sur Cause Commune 93.1 en Île-de-France et partout ailleurs sur causecommune.fm. Nous avons écouté le morceau Quand nous sommes à la taverne, le groupe s’appelle Ceili Moss. J’en profiterais pour préciser qu’évidemment il faut consommer avec modération, surtout quand dans la bouteille il y a de l’alcool.
Nous allons aborder le dernier sujet. Nous allons faire un point rapide sur le projet de loi pour une école de la confiance et plus précisément sur des amendements visant à inscrire la priorité au logiciel libre dans l’Éducation. Normalement au téléphone Jean-François Clair est avec nous. Jean-François est-ce que tu es là ?
Jean-François Clair : Oui. Bonjour Fred.
Frédéric Couchet : Bonjour Jean-François. Jean-François Clair, tu es professeur de mathématiques en collège REP+ à Paris et tu es responsable du groupe numérique au SNES qui est le principal syndicat du secondaire. Je t’ai invité à intervenir avec deux questions de base en fait. Je précise que le SNES est de longue date impliqué, a un engagement de longue date en faveur des logiciels libres dans l’Éducation. Pour quelle raison le SNES a cet engagement à la fois dans l’Éducation et dans sa pratique syndicale ?
Jean-François Clair : C’est essentiellement parce que, contrairement à ce que disent de nombreux médias, le SNES est quand même un syndicat très progressiste et, dès le tournant des années 80, lorsque la micro-informatique est apparue, de très nombreux enseignants, dont les enseignants du SNES, se sont emparés de l’outil informatique. Au fur et à mesure que les années ont passé eh bien ils ont développé une expertise, une connaissance et ils se sont très rapidement rendu compte au moment où Microsoft a pris possession, on va dire, du monde de la micro-informatique, il y avait aussi Apple de son côté, qu’on courait quand même vers une forme de marchandisation de l’école puisque, finalement, on a mis très longtemps à arriver à faire comprendre aux gens qu’il fallait parler de tableur, qu’il fallait parler de traitement de texte, de messagerie électronique et même maintenant, d’ailleurs, de moteur de recherche, plutôt que d’employer les noms qu’on utilise traditionnellement parce que c’est l’outil le plus courant à utiliser, de la même manière que dans les années 50 il y avait frigidaire qui avait remplacé le nom de réfrigérateur.
Ensuite, pourquoi le logiciel libre ? Eh bien tout simplement parce que le logiciel libre correspond à une philosophie, une façon finalement de penser le monde, où on est propriétaire de ce que l’on fait et on le met en commun puisque c’est le principe du Libre, le code est ouvert. C’était pour nous une façon de se dire que c’était peut-être la meilleure manière d’amener à ce que les élèves puissent apprendre, à un moment ou à un autre, l’informatique, en particulier le codage puisque, quand on parle de logiciel libre, il y a quand même cette dimension de codage, et surtout à pouvoir fabriquer par nous-mêmes ou améliorer par nous-mêmes les logiciels de façon à ce qu’ils correspondent à nos besoins pédagogiques. Voilà en gros comment je pourrais présenter les choses.
Frédéric Couchet : D’accord. C’est un engagement de longue date. Je précise que le SNES est membre de l’April. Il y a aussi un autre syndicat qui est membre de l’April qui est le SGEN-CFDT ; il y a aussi une section du Bas-Rhin du SNUIPP-FSU qui est membre de l’April. C’est aussi intéressant en termes de soutien de nos actions parce que c’est relativement récent ces adhésions à l’April, mais ça ne cache pas le fait, au contraire, ça renforce le fait que ces syndicats, depuis de longue date, essayent de promouvoir le logiciel libre à la fois dans leur pratique syndicale et aussi dans l’enseignement.
Aujourd’hui on va parler, assez rapidement parce que la fin de l’émission approche, d’un projet de loi qui a été déposé à l’Assemblée nationale début décembre, qui est le projet de loi pour une école de la confiance. Initialement, le projet de loi pour une école de la confiance ne visait pas spécifiquement le logiciel libre, mais il se trouve que des députés ont déposé des amendements. Sans refaire tout l’historique, notamment en commission et avant que je te pose la deuxième question pour qu’on comprenne, là actuellement le projet de loi est étudié à l’Assemblée nationale en séance publique, donc ça a commencé lundi, ça va se poursuivre tout à l’heure après la séance des questions du gouvernement donc ça a peut-être commencé.
En fait il y a deux types d’amendements qui ont été déposés par des parlementaires pour la séance publique. Il y a premier type d’amendements qui a été déposé par les députés de la France insoumise qui vise à imposer l’usage du logiciel libre dans l’Éducation, je lis l’amendement : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont des logiciels libres » , c’est l’amendement 571.
Et de son côté le groupe communiste, notamment le député Stéphane Peu, a déposé deux amendements qui visent à inscrire la priorité au logiciel libre, ce qui est différent d’imposer l’usage du logiciel libre. Le lis l’amendement 836 de Stéphane Peu : « Les logiciels mis à disposition des élèves dans le cadre du service public de l’enseignement sont en priorité des logiciels libres ». On voit deux approches différentes. Nous, l’approche priorité au logiciel libre c’est celle que l’on défend depuis de nombreuses années, notamment pour gérer la phase de transition nécessaire, parce que évidemment, dans le monde de l’Éducation malheureusement, Microsoft, Apple et autres sont très présents. Quelle est la position du SNES sur ces deux options priorité ou imposition du logiciel libre ?
Jean-François Clair : On ne peut pas imposer. On ne peut absolument pas imposer le logiciel libre pour une bonne et simple raison c’est qu’il existe un certain nombre de choses qui relèvent de codes propriétaires. Je vais prendre un exemple tout simple : pendant des années les collègues ont développé des petites animations Flash qui sont basées sur Adobe Flash, c’est du code complètement propriétaire, ce n’est pas du Libre.
Frédéric Couchet : Ce n’est pas du libre. Flash c’est propriétaire.
Jean-François Clair : C’est mis gratuitement à disposition de, mais ce n’est pas du Libre. Donc on ne peut pas imposer à tout prix le Libre surtout dans une société qui n’est pas encore prête à, comment dire, réfléchir publiquement sur la protection des données, comme on l’a vu l’année dernière avec la loi qui a été votée au moment de l’entrée en vigueur définitive du RGPD sur la protection des données. Pour nous, il s’agit de donner la priorité au logiciel libre. De toute façon il existe aussi un certain nombre de solutions qui ont été développées en code propriétaire et qui n’ont pas leur équivalent dans le monde du Libre.
Frédéric Couchet : Qui n’ont pas encore leur équivalent.
Jean-François Clair : Et qui sont, malgré tout, utilisées par un certain nombre de collègues.
Frédéric Couchet : D’accord. Ça rejoint notre position.
Je répète que les débats ont lieu en ce moment. Pour les personnes qui nous écoutent, la meilleure façon d’agir c’est de contacter des parlementaires, un courriel ou un coup de téléphone, c’est encore plus efficace, avec vos propres arguments : expliquer pourquoi vous considérez que le logiciel libre doit être prioritaire dans l’Éducation ; vous pouvez employer les arguments qui vous parlent et les parlementaires, les députés, sont sensibles à ces questions-là. En termes d’agenda il est probable que ces amendements seront discutés mercredi ou jeudi parce qu’en fait ils sont après l’article 24, donc c’est vraiment en fin de discussion. Contactez vos parlementaires. En commission, des amendements un peu équivalents avaient été proposés et le ministre Jean-Michel Blanquer avait indiqué qu’en fait, déjà dans la loi, il y avait un encouragement à utiliser du logiciel libre dans l’administration. Il faut savoir que dans la loi il y a actuellement une phrase, de mémoire « l’offre logicielle tient compte de l’offre logiciel libre. »
Jean-François Clair : Ce n’est pas suffisant !
Frédéric Couchet : Ce n’est pas suffisant, c’est-à-dire qu’on ne fait pas une politique avec des encouragements ou une injonction à tenir compte. On fait une politique avec des priorités, donc entamer dès maintenant une démarche de transition vers les logiciels libres en inscrivant dans la loi la priorité aux logiciels libres et aux formats ouverts dans l’Éducation nationale. Jean-François est-ce que tu veux rajouter quelque chose sur ce point ?
Jean-François Clair : Je ne vois pas trop. En fait, tu as déjà tout dit.
Frédéric Couchet : On avait relativement peu de temps, enfin peu de temps à consacrer, mais c’est qu’en fait l’émission se termine bientôt et il y avait plusieurs sujets, mais il était important de parler de ce sujet-là. Je suis personnellement convaincu que l’inscription dans la loi de la priorité au logiciel libre n’est qu’une question de temps. Il y a déjà eu de nombreux débats. Pour les personnes qui avaient suivi le projet de loi République numérique en 2016, à l’Assemblée nationale en séance publique, il y avait eu un long débat, près de 45 minutes ce qui est beaucoup sur un seul amendement, et on voyait qu’il n’y avait pas l’opposition classique qu’on connaissait, mais au contraire il y avait vraiment des liens qui se faisaient entre députés de différents bords. Le gouvernement de l’époque s’y était opposé. On espère que ce nouveau gouvernement ne s’y opposera pas, parce que, par rapport aux débats en commission, nous on a apporté des arguments justement sur la nécessité de la priorité. Ce qui est intéressant c’est qu’il y a deux types d’amendements qui sont proposés ce qui va permettre d’avoir un échange intéressant en séance. C’est sans doute plutôt mercredi ou jeudi et j’encourage chacun et chacune à contacter des députés. Sur le site de l’April, april.org, vous avez une page qui récapitule le dossier, qui précise les amendements et qui vous donne des pistes pour contacter des parlementaires.
Écoute Jean-François je te remercie de ton intervention et je pense qu’on aura l’occasion prochainement dans l’émission de faire un sujet beaucoup plus général sur le logiciel libre, l’Éducation, les formats ouverts, les données personnelles des élèves et des enseignants et enseignantes. Je te remercie Jean-François et à bientôt.
Jean-François Clair : Merci beaucoup Fred, à une prochaine fois.
Frédéric Couchet : L’émission va bientôt se terminer je vais juste faire une petite annonce qui est en lien, en fait, avec ce sujet-là, tout simplement.
Quelques annonces
Frédéric Couchet : Ce week-end à Beauvais auront lieu les PrimTux Days donc les journées Primtux. PrimTux est un système d’exploitation complet et libre qui propose un environnement de travail qui est adapté aux cycles de l’école primaire. On est toujours dans le domaine de l’école. C’est à Beauvais du samedi 16 février à 10 heures au dimanche 17 février à 17 heures.
Vous retrouvez les informations détaillées sur le site de l’Agenda du Libre, donc agendadulibre.org et évidemment, sur le site de l’Agenda du Libre, vous trouvez tous les évènements du Libre qui se passent à Paris et ailleurs, les soirées de contribution au Libre, on a parlé tout à l’heure de contribuer à Softfware Heritage. On peut contribuer aux projets libres directement, les différents apéros, l’occasion de rencontrer des gens.
Notre émission se termine.
Vous allez bientôt avoir le plaisir d’entendre notre générique de fin qui est Wesh Tone de Realaze.
Vous retrouvez sur notre site web april.org toutes les références utiles que nous avons citées aujourd’hui. La page sera mise à jour s’il y a des références qu’on a oubliées. Vous retrouvez aussi sur le site de la radio causesommune.fm. N’hésitez pas à nous faire des retours pour indiquer ce qui vous a plu mais aussi des points d’amélioration.
On va se retrouver le 19 février donc mardi prochain à 15 heures 30. Nous parlerons du Pacte de la Transition avec Aliette Lacroix, nous ferons un point sur la directive droit d’auteur avec Anne-Catherine Lorrain qui travaille au Parlement européen pour le groupe des Verts et notre sujet principal, là c’est aussi un grand plaisir, j’aurais le plaisir d’échanger avec Stéphane Bortzmeyer dans le cadre du livre qu’il vient de publier Cyberstructure. L’Internet, un espace politique.
Je vous souhaite de passer une belle journée et on se retrouve la semaine prochaine. D’ici là portez-vous bien.