Le 31 mars a été rendue publique la liste "des citoyens ayant présenté les candidats à l'élection du Président de la République". Comprendre les élus ayant accordé leur parrainage à un des 10 candidats à l'élection présidentielle. Se présentant sous la forme d'une longue liste, la version publiée par le Journal officiel ne contient que le strict minimum prévu par la loi, à savoir le nom de l'élu, sa fonction et le lieu dans lequel il l'exerce. A noter que pour chaque candidat, seuls 500 élus tirés au sort ne figurent dans cette liste.
#opendatamoncul
Le problème majeur de cette liste est qu'elle ne peut être utlisée en l'état. Comme l'explique Mounir Mahjoubi, créateur de la start-up Mounir&Simon et miltant pour l'opendata, le plus gros du travail a consisté à la rendre exploitable:
"Techniquement, le travail a consisté à ordonner et rendre intelligibles les données brutes publiées dans le journal officiel. Exemple de traitement des informations avant l’export :
De son côté, Owni a fait le choix de s'entourer de l'association Regards Citoyens, militant pour la libération des données publiques, pour proposer une carte interactive de la répartition des parrains de chacun des 10 candidats, en ajoutant des informations qui ne figurent pas dans le document officiel.
"Techniquement, le travail a consisté à ordonner et rendre intelligibles les données brutes publiées dans le journal officiel. Exemple de traitement des informations avant l’export :
- Version Journal Officiel: M. Georges DE BERTOULT, maire de PLOYART-ET-VAURSEINE (AISNE) ; M. Jean-Pierre CUVILLIEZ, maire de SAUDEMONT (PAS-DE-CALAIS) ;
- En : « Georges DE BERTOULT »; »maire »; »PLOYART-ET-VAURSEINE, AISNE, France »« Jean-Pierre CUVILLIEZ »; « maire »; « SAUDEMONT, PAS-DE-CALAIS, France » ".
De son côté, Owni a fait le choix de s'entourer de l'association Regards Citoyens, militant pour la libération des données publiques, pour proposer une carte interactive de la répartition des parrains de chacun des 10 candidats, en ajoutant des informations qui ne figurent pas dans le document officiel.
Pour ce faire, le collectif a mené un travail de "formatage, de nettoyage et d'amélioration" afin de constituer une base de données exploitable. Surtout, pour chaque élu cité, un travail de recoupement a été effectué avec les données du ministère de l'Intérieur en vue d'indiquer leur affiliation politique.
A noter que cette information n'a pu être obtenues pour 342 des 5000 élus en question. Pour compléter sa base de données, Regards Citoyens a donc eu recours au crowdsourcing : le collectif a mis en place un document ouvert dans lequel il invite les internautes à faire des recherches Google ou Wikipedia pour les 342 cas où l'information n'a pu être récupérée de façon automatique ainsi que pour les 520 cas où il était indiqué "Autre" ou "Non-communiqué".
Ces longs "préliminaires" illustrent bien la difficulté inhérente au datajournalisme à l'heure actuelle et la nécessité pour les différents acteurs de collaborer. Ce que n'omettent pas de préciser Sabine Blanc et Julien Kirch dès le chapô de l'article:
"Amusez-vous avec cette carte interactive des parrainages pour la présidentielle. Sur le sujet, un vilain pdf a été réalisé, et c’est déjà ça. En Corée du Nord, ça n’existe pas par exemple. Mais une jolie carte, c’est mieux. Allez, on fait un souhait : en 2017, notre administration proposera d’elle-même la carte."
Et de récidiver un peu plus loin: " Au passage, si notre chère administration avait proposé dès le début un fichier exploitable, la question ne se poserait pas. En lieu et place, Légifrance a proposé un listing en html. #opendatamoncul."
A noter que cette information n'a pu être obtenues pour 342 des 5000 élus en question. Pour compléter sa base de données, Regards Citoyens a donc eu recours au crowdsourcing : le collectif a mis en place un document ouvert dans lequel il invite les internautes à faire des recherches Google ou Wikipedia pour les 342 cas où l'information n'a pu être récupérée de façon automatique ainsi que pour les 520 cas où il était indiqué "Autre" ou "Non-communiqué".
Ces longs "préliminaires" illustrent bien la difficulté inhérente au datajournalisme à l'heure actuelle et la nécessité pour les différents acteurs de collaborer. Ce que n'omettent pas de préciser Sabine Blanc et Julien Kirch dès le chapô de l'article:
"Amusez-vous avec cette carte interactive des parrainages pour la présidentielle. Sur le sujet, un vilain pdf a été réalisé, et c’est déjà ça. En Corée du Nord, ça n’existe pas par exemple. Mais une jolie carte, c’est mieux. Allez, on fait un souhait : en 2017, notre administration proposera d’elle-même la carte."
Et de récidiver un peu plus loin: " Au passage, si notre chère administration avait proposé dès le début un fichier exploitable, la question ne se poserait pas. En lieu et place, Légifrance a proposé un listing en html. #opendatamoncul."
Nouveaux outils, nouveaux usages
Autre outil particulièrement intéressant, développé avec les mêmes données quoiqu'il ne révèle pas autant ses secrets de fabrication, le moteur de recherche mis en place par le site de France Télévisions Info. Il se présente sous la forme d'un questionnaire à double entrée: on choisit un candidat, et un département et le nom des signataires apparaît. Autre avantage: il propose également ces données pour les élections de 2007 et même de 2002.
Mettre en forme des bases de données, les rendre exploitables par des programmes pour en faire des cartes ou infographies est à l'évidence un travail très long et fastidieux. Et malgré des résultats pas toujours garantis, la démarche ne peut être que louable dans la mesure où ce genre d'initiative fournit des outils permettant une multitude de réutilisations.
Dans le cas de la carte comme du moteur de recherche présentés ci dessus, il convient par exemple de noter que la répartition des parrains s'avère pertinente essentiellement pour les candidats ayant eu du mal à obtenir les 500 signatures. Car les données publiées ne contiennent que 500 candidats tirés au sort, et dans le cas par exemple de François Hollande qui déclaré avoir recueilli environ 5000 signatures, il apparaît peu opportun de tirer des conclusions alors que l'échantillon disponible ne représente qu'un dixième de l'ensemble des signatures.
En revanche, en ce qui concerne Marine Le Pen (500 signatures), Nathalie Arthaud (521), Jacques Cheminade (538) ou Philippe Poutou (572), la répartition peut être significative. Et le constat est parfois assez clair: la candidate du FN est par exemple profondément ancrée dans le Nord-Est de la France, comme le montre l'infographie suivante, réalisée par Geoffray Heuline pour le blog Trop Space :
Dans le cas de la carte comme du moteur de recherche présentés ci dessus, il convient par exemple de noter que la répartition des parrains s'avère pertinente essentiellement pour les candidats ayant eu du mal à obtenir les 500 signatures. Car les données publiées ne contiennent que 500 candidats tirés au sort, et dans le cas par exemple de François Hollande qui déclaré avoir recueilli environ 5000 signatures, il apparaît peu opportun de tirer des conclusions alors que l'échantillon disponible ne représente qu'un dixième de l'ensemble des signatures.
En revanche, en ce qui concerne Marine Le Pen (500 signatures), Nathalie Arthaud (521), Jacques Cheminade (538) ou Philippe Poutou (572), la répartition peut être significative. Et le constat est parfois assez clair: la candidate du FN est par exemple profondément ancrée dans le Nord-Est de la France, comme le montre l'infographie suivante, réalisée par Geoffray Heuline pour le blog Trop Space :
De son côté, le Monde.fr a mis en ligne un visuel interactif très réussi sur la répartition des parrains des quatre candidats, sur lequel on peut observer que mis à part Philippe Poutou qui a beaucoup de soutiens provenant de la région Aquitaine dont il est originaire, l'ensemble des signataires est assez concentré au Nord-Est du pays.
On peut imaginer que l'utilisation combinée des cartes et du moteur de recherche pourrait donner lieu à d'autres analyses intéressantes sur l'implantation politique des candidats. Si l'administration a encore des efforts à faire pour fournir des données exploitables et faciliter l'élaboration de tels outils de visualisation, l'usage de ces outils par les chercheurs et les journalistes à la fois comme illustration et matière première de leur travail aurait lui aussi tout intérêt à se développer.


Fil d'info






















Place Gre'Net, un "Mediapart" à Grenoble







