Du logiciel libre pour analyser les masses de documents leakés par les lanceurs d’alerte - Décryptualité du 27 janvier 2020

Titre :
Décryptualité du 27 janvier 2020 - Du logiciel libre pour analyser les masses de documents leakés par les lanceurs d’alerte
Intervenants :
Manu - Luc
Lieu :
April - Studio d’enregistrement
Date :
27 janvier 2020
Durée :
13 min 30
Écouter ou télécharger le podcast

Revue de presse pour la semaine 4 de l’année 2020

Licence de la transcription :
Verbatim
Illustration :
Loupe-recherche-trouver-regarder Image par Peggy und Marco Lachmann-Anke de Pixabay - Pixabay license

Les positions exprimées sont celles des personnes qui interviennent et ne rejoignent pas nécessairement celles de l’April, qui ne sera en aucun cas tenue responsable de leurs propos.

Description

Une nouvelle affaire de corruption en Angola a été rendue public par un hacker. L’occasion d’évoquer les outils utilisés par les journalistes pour travailler ensemble et fouiller dans la masse des informations rendues publiques.

Transcription

Voix off : Décryptualité.
Voix off de Nico : Le podcast qui décrypte l’actualité des libertés numériques.
Luc : Semaine 4. Salut Manu.
Manu : Salut Luc et bon retour !
Luc : Merci. Qu’est-ce qu’on a au menu ?
Manu : Cinq jolis articles.
Luc : Breakingnews.fr, « Windows 7 devrait continuer de fonctionner comme une source ouverte, des demandes de pétition spectaculairement optimistes », un article de la rédaction.
Manu : Il s’agit de pétitions notamment poussées par la Free Software Foundation, la FSF, et effectivement c’est très optimiste, parce que là, en quelque sorte, ils demandent à ce que Microsoft ouvre le code source de Windows 7 puisqu’il est en fin de support et ça permettrait à la communauté, à tout le monde, aux entreprises, aux institutions, de le supporter à sa place. Mais il ne faut pas rêver, ça n’arrivera très probablement pas.
Luc : L’Echo, « Michel Bauwens : « Plus une civilisation est inégalitaire et prédatrice, plus dure est sa chute » », une interview de la rédaction.
Manu : Plutôt intéressant. Ça parle philosophie, ça introduit justement des concepts économiques tout en parlant des communs et du logiciel libre, donc tout ça. Vraiment pas mal !
Luc : Vosges matin, « Les valeurs du libre défendues par l’Amiposte Telecom », un article de la rédaction.
Manu : L’Amiposte Telecom est une association des Vosges, un club informatique et ça a l’air d’être plutôt sympa. Allez jeter un œil si vous habitez dans le coin, vraiment, c’est recommandé. Il y a d’autres articles qui sont en liens secondaires, qui parlent aussi d’associations locales, comme Gullivigne, et puis de discussions dans d’autres associations politiques plus locales qui parlent de logiciel libre notamment.
Luc : Bravo à toutes ces associations locales qui font un boulot essentiel. Livres Hebdo, « Hachette reprend lelivrescolaire.fr », un article de Hervé Hugueny.
Manu : C’est un article qui m’a été remonté un peu bizarrement parce que dedans ça ne parle pas de logiciel libre directement, mais en fait, en creusant un peu, j’ai découvert que lelivrescolaire.fr est un site qui regroupe plein de manuels qui sont diffusés sur Internet et qui sont faits de manière collaborative par des profs divers et variés. C’est fait en Libre, donc c’est plutôt intéressant et on espère que Hachette va continuer l’initiative.
Luc : Breakingnews.fr, « ProtonVPN publie le code source et subit un audit de sécurité complet », un article de la rédaction.
Manu : ProtonVPN, VPN, Virtual Private Network. C’est un moyen d’aller sur Internet de manière privée, en tout cas c’est ce qui est vendu par là. Généralement accéder à un VPN, c’est payant et, grâce à ce VPN, vous allez pouvoir accéder à différents pays, différents endroits sans qu’on sache que ça vient de votre ordinateur.
Luc : C’est comme une sorte de tunnel qu’on emprunterait à partir de chez soi et on sortirait ailleurs sur Internet.

Manu : Voilà, carrément, c’est une bonne image. Une des problématiques de tout ça c’est qu’il faut faire confiance au fournisseur du VPN et là Proton VPN, c’est un fournisseur et pour qu’on lui fasse confiance, pour essayer d’être le plus transparent possible, eh bien ils font quelque chose qui est extraordinaire, ils ont ouvert le code source de leurs applications.
Luc : Comme ça on peut voir commet ça marche pour de vrai.
Luc : Exactement. Là ce sont les qualités du logiciel libre en vrai. Après, il faut quand même continuer à leur faire confiance parce qu’on ne peut pas s’assurer complètement que c’est bien ça qui tourne sur leurs serveurs, mais c’est déjà une très grosse étape.

Le sujet de la semaine ?
Luc : Quelque chose de complètement différent puisqu’on va parler de l’Angola.
Manu : L’Angola ? Qu’est-ce qu’il y a là-bas ?
Luc : C’est un pays africain, bien sûr, qui est une ancienne colonie portugaise. Il y a actuellement un scandale de corruption. Une femme qui s’appelle Isabel dos Santos, qui est la fille d’un ancien président angolais.
Manu : Et qui, d’après l’article, est la femme la plus riche d’Afrique.
Luc : Oui, c’est une milliardaire, c’est une femme qui a travaillé dans la finance internationale, ceci cela.
Manu : Donc quelqu’un de compétent ! Sûrement !
Luc : Oui, bien sûr. Probablement ! Un hacker portugais, du nom de Rui Pinto, a fait fuiter de centaines de milliers de documents, en portugais pour l’essentiel, qui démontreraient que cette brave dame a monté toute une série de magouilles, d’escroqueries.
Manu : D’évasion fiscale.
Luc : D’évasion fiscale et de choses comme ça.
Manu : Du blanchiment d’argent.
Luc : Oui. Donc avec l’aide de banques et de tous ces gens respectables qui portent des cravates et, dans l’opération, elle s’est fait entre un et deux milliards de revenus. Ce hacker est en prison actuellement.
Manu : Oui. Il est en prison pour d’autres papiers qui ont fuité d’une autre manière.
Luc : Dans le domaine du football, les « Football Leaks ». Il avait sorti des documents qui tendaient à prouver qu’il y avait des grosses magouilles financières.
Manu : Et de l’évasion fiscale.
Luc : Ce genre de choses au niveau des coupes européennes de football. C’est étonnant ! On est surpris !
Manu : Oui. Il a été attrapé, en quelque sorte, en Europe de l’Est. Ensuite il a été extradé vers le Portugal et là il est en prison, il attend un jugement, il a 147 accusations sur le dos, donc ça va être compliqué pour lui !
Luc : Ces 147 accusations ne comportent pas ses affaires avec l’Angola. Lui dit qu’il est un lanceur d’alerte, qu’il a hacké tout ça pour avertir le public.
Manu : Par contre, les procureurs pensent qu’il a fait possiblement de l’extorsion de fonds et qu’il a fait fuiter des documents secrets, donc il a accédé à des ressources auxquelles il n’avait pas accès, il n’aurait pas dû y toucher. C’est le propre même des fuites et des journalistes, parce que là c’est un travail de journaliste qu’il a fait, même s’il n’en a pas la carte, et c’est peut-être ça qui va lui coûter cher, ne pas avoir la carte.
Luc : C’est plus que du travail de journaliste parce qu’on peut supposer qu’il a piraté des serveurs pour récupérer ces informations-là, or un journaliste n’a pas le droit, normalement, de pirater des serveurs. C’est un lanceur d’alerte, selon lui, et de fait on peut se dire que s’il avait voulu faire de l’extorsion de fonds ou des choses comme ça, il ne se serait peut-être pas fait attraper aussi facilement.
Manu : On peut toujours s’attendre à des révélations sur ce plan-là. Peut-être qu’il y a eu des demandes d’argent, c’est compliqué à vérifier, en tout cas c’est une des accusations qui a l’air d’être faite.
Luc : On peut supposer qu’une fois qu’on est mis en cause par ce gars-là et qu’il y a des fuites, dire qu’il est là pour faire de l’extorsion de fonds c’est la meilleure défense qu’on peut trouver pour le faire taire.
Manu : Oui, carrément. Et ça semble un peu ridicule quand il fait un travail notamment sur cette femme d’Angola qui, elle-même, a récupéré jusqu’à deux milliards de dollars et il révélerait des malversations financières d’assez haut niveau, assez complexes.
Luc : En fait, il est tout à fait dans la tradition d’un Julien Assange.
Manu : D’un Chelsea Manning.
Luc : Effectivement. Chelsea Manning était directement impliqué dans l’affaire, c’est légèrement différent, mais en tout cas bien dans la logique de Julien Assange et il est dans de gros problèmes.

La difficulté avec ce genre de situation c’est qu’il a fait fuiter 715 000 documents qui sont pour l’essentiel en portugais.
Manu : Et qui ne sont peut-être pas dans des formats facilement utilisables.
Luc : Effectivement. Et dans toute cette masse d’infos, il faut réussir à trouver l’information qui est pertinente.

Ce qui nous a donné envie de parler d’un autre sujet. Ils sont, à priori, de ce qu’on en sait, pas impliqués sur cette affaire-là, mais peut-être que si, c’est le même genre de logique. C’est un groupe de journalistes qui internationalement s’organisent pour pouvoir exploiter ce genre de données, se donner les moyens de les explorer et d’en ressortir des informations intéressantes.
Manu : Le groupe s’appelle ICIJ [1]. Comment tu le prononcerais ?
Luc : International Consortium of Investigative Journalists
Manu : C’est compliqué, c’est un nom un peu long et ce sont des gens vraiment très intéressants, qui travaillent sur des masses de documents et qui ont mis en place des techniques de travail, en commun, qui sont assez impressionnantes et basées largement sur du logiciel libre.
Luc : Oui. Avec plein d’outils. On se doute que quand on a autant d’informations, autant de documents, on a plusieurs problématiques.
Manu : Des dizaines de millions de documents parfois.
Luc : D’une part ce sont des journalistes de différents pays. On se souvient que ce qui avait été fuité par Snowden, il avait préalablement organisé, enfin fait organiser par quelqu’un en qui il avait confiance, un groupe de journalistes qui allaient se partager les infos.
Manu : Et ça s’est retrouvé pour les Panama Papers et les Paradise Papers.
Luc : Voilà ! Déjà il faut organiser le travail de tous les gens qui vont participer à ça pour qu’il n’y ait pas de fuites, parce que, évidemment, ils vont être surveillés par à peu près tout et n’importe quoi. Qu’ils puissent communiquer entre eux et organiser leur travail de façon confidentielle. Ensuite il faut trouver l’information pertinente dans la masse de tous les documents. Ensuite il faut réussir à lire certaines choses puisque certains documents peuvent être scannés donc on a des images, or les images ce n’est pas quelque chose qu’on peut indexer puisqu’on n’a pas le texte, on a juste des pixels, les pixels en eux-mêmes ne veulent rien dire.
Manu : Donc il faut en extraire des données pertinentes et des métadonnées pour ensuite essayer de faire des liens entre tous les documents qu’on a obtenus.
Luc : Les métadonnées [2], il faut quand même expliquer ce que c’est.
Manu : Ce serait comme une enveloppe. Sur l’enveloppe on met des adresses, on met des informations par exemple sur le poids, donc ça va être le nombre de pages, ça va être les personnes qui sont intervenues dans les documents, ça va être les dates bien sûr, les montants éventuellement.
Luc : Et le type de document. On va dire ceci est une facture, par exemple.
Manu : Donc les métadonnées ce sont les données sur les données et, parfois, il est plus facile et plus pertinent de travailler sur les métadonnées parce qu’elles peuvent révéler, une fois qu’on les a un peu travaillées, des informations très intéressantes.
Luc : Ça permet aussi de faire des recherches. Quand un journaliste s’intéresse à tel ou tel sujet, il va dire « je veux vérifier toutes les factures émises entre telle date et telle date ».
Manu : Ou qui concernent telle personne.
Luc : Ou qui concernent telle personne, etc., donc on a besoin que toute l’information soit organisée, étiquetée, pour pouvoir faire tous ces types de recherche puissants.
Manu : Là on est [3] un petit peu sur les outils utilisés par ICIJ, je ne sais pas comment il faudrait le prononcer, I, C, I, J. Il y a plein d’outils qui viennent du monde Apache, qui viennent des gestions de bases de données, qui permettent de faire de l’extraction de données et qui permettent de travailler en commun. Ils ont notamment un truc qui s’appelle I-Hub et qui, en tout cas c’est comme ça qu’ils le présentent, permet de construire des forums par sujet, éventuellement des sous-sujets à l’intérieur, pour que les journalistes puissent se concentrer sur des éléments en particulier et tout ça de manière hyper-sécurisée, en utilisant du chiffrement à plusieurs niveaux parce qu’ils savent très bien, étant donné qu’il y a des dizaines, des centaines de journalistes impliqués sur les plateformes, eh bien que ce sont eux qui vont être les maillons faibles et qu’il en suffit parfois d’un pour accéder au reste.

Donc ils essayent de faire de la sécurité par couches, de garantir, autant qu’ils peuvent, la confidentialité, l’intégrité des données, en rajoutant à chaque fois des petits éléments. Tous les accès sont faits par PGP [Pretty Good Privacy], les accès sont confirmés par des mots de passe temporaires qui sont envoyés sur les téléphones portables et parfois il faut aussi qu’ils aient des certificats sur leur ordinateur, donc il faut que l’ordinateur lui-même s’identifie quand il veut accéder au site où les journalistes travaillent en commun.

Et ça, ce ne sont que certaines des mesures qu’ils révèlent. J’espère qu’il y en a d’autres.
Luc : Tout ça pour pouvoir continuer échanger de façon confidentielle, éviter de se faire pirater son ordinateur ou sa messagerie pour que quelqu’un aille détruire des infos ou mette des fausses informations dedans. C’est un grand classique quand on fait des coups pourris.
Manu : On empoisonne.
Luc : On met des vraies infos et on met dedans des infos compromettantes sur quelqu’un dont on veut se débarrasser et comme la plupart sont vraies, on va considérer…
Manu : C’était déjà arrivé, il y a eu des cas avec des hommes politiques français où étaient rajoutées aux données qui étaient tout à fait pertinentes d’autres données contre des opposants politiques. C’était assez sale.
Luc : Après il y a toute la partie de retraitement des données brutes. Là il y a toute une série de logiciels, essentiellement des logiciels libres.
Manu : Allez, une petite liste rapide. Il y a du Apache Tika.
Luc : Ça sert à extraire les metadata et le texte dans les documents.
Manu : Apache Solr.
Luc : Pour construire un moteur de recherche, pour retrouver les informations qui nous intéressent.
Manu : Tesseract.
Luc : Ça permet de lire avec de la reconnaissance de caractères ce qu’il y a dans les images pour en faire du texte qu’on va pouvoir indexer et justement mettre dans les moteurs de recherche.
Manu : Il y a un outil qu’ils ont fait eux-mêmes qui s’appelle Extract.
Luc : C’est un autre outil qui va permettre de traiter les documents bruts pour en faire de l’information dans laquelle on puisse faire des recherches pour trouver l’information pertinente.
Manu : Il y en a d’autres encore, Blacklight, ils le nomment rapidement, c’est un portail qui permet l’accès aux journalistes.
Luc : Qui permet aux journalistes d’accéder aux documents et de rechercher.
Manu : Après il y a encore d’autres outils comme Neo4j.
Luc : Qui permet de faire des représentations graphiques.
Manu : Talend.
Luc : Qui permet de passer des données d’une base de données vers une autre.
Manu : Le dernier, que je ne connais pas vraiment, mais qui a l’air intéressant Linkurious.
Luc : Qui est également un outil de visualisation, qui permet de voir les liens entre les données, les structures de données, ce qui peut révéler un certain nombre d’informations.
Manu : On peut imaginer qu’il y en a d’autres, à priori ce n’est pas limité. Le fait que ce soit libre et que ce soit construit par des communautés, ça permet probablement à ces journalistes de ne pas être sous la coupe d’un fournisseur en particulier, d’un logiciel spécifique, et de pouvoir travailler en commun, peut-être même de faire des demandes aux gens et aux communautés qui fournissent les logiciels.
Luc : On peut supposer que ça coûte également moins cher parce que, sans doute, ils ne doivent pas avoir tant de pognon que ça. Ça leur permet de travailler ensemble sans être dans un environnement complexe de licences propriétaires qui autorisent à faire ceci mais pas cela. Ça permet également d’avoir confiance dans les logiciels.
Manu : On sait qu’on se sera pas trop tracé, qu’il n’y aura pas trop de failles de sécurité qui auront été mises en place par le fournisseur de logiciel.
Luc : Et qu’il va faire ce qu’il est censé faire et on sait qu’il ne va pas, potentiellement, s’il y a une backdoor de la NSA ou de n’importe qui d’autre qui pourrait, par exemple, aller effacer des données ou interdire de les remonter.
Manu : On sait qu’il y a eu des cas, je crois que c’est Panama Papers où il y avait des dirigeants d’Europe de l’Est et de Russie qui étaient impliqués par ces papiers. Et, à priori, ils ont des moyens phénoménaux, les moyens d’un État, pour aller empoisonner les données ou pour aller corrompre les disques durs des journalistes et les empêcher de révéler ces informations. Donc si les journalistes ne sont pas protégés face à Poutine ou Trump, eh bien potentiellement leur travail peut être gâché à tout moment.
Luc : C’est vraiment du travail de très haut vol. On voit bien que quand on veut s’assurer de son autonomie, de sa sécurité, eh bien le logiciel libre est un impératif.
Manu : Ce n’est pas suffisant mais effectivement, c’est nécessaire.
Luc : Très bien. Ce sera le mot de la fin. Merci Manu.
Manu : À la semaine prochaine Luc. Salut.