Article : Francearchives : réalisations

Le portail francearchives.fr, l’agrégateur national des archives françaises, a été mis en ligne en mars 2017. Ce portail est né du besoin d’offrir à tous un accès simplifié aux descriptions d’archives dispersées sur tout le territoire, entre différents services nationaux et territoriaux, publics ou privés et de statuts juridiques variés.

Rendre visible

L’autre objectif du portail est d’augmenter la visibilité des métadonnées archivistiques sur le web en portant une attention particulière au référencement par les moteurs généralistes grâce à la mise en place de balises sémantiques telles que schema.org (langage commun des descriptions des données adoptées par Google, Bing et Yahoo en 2011). Dans le code des pages du portail, des balises signalent aux robots indexeurs des moteurs le type de données : titre, lieu, agent, date, etc.
Pour contribuer à ce meilleur référencement et aux partages de ces données, le portail utilise des URLs uniques et pérennes, indépendantes des mouvements des contenus sur le site. Concernant les inventaires, la pérennité des URL repose sur la pérennité des identifiants des inventaires fournis par les partenaires.

Dans un objectif de diffusion toujours plus large, le portail FranceArchives joue le rôle d’agrégateur national pour le Portail européen des archives. Les données mises à disposition sur le portail français sont transférées sur le Portail européen qui les diffuse à son tour. Pour ce faire, un outil de conversion des instruments de recherche en ApeEad, format pivot du portail européen, a été développé.

Enfin, ainsi que le prévoient les conventions signées avec les contributeurs, les jeux de données tirés des informations rassemblées par le portail sont proposés sous Licence ouverte (type Etalab), c'est-à-dire gratuitement et dans des formats ouverts qui en permettent la réutilisation, tout en respectant la législation en vigueur (respect des différents secrets et intérêts protégés par la loi). Sont ainsi proposés sur la plateforme data.culture.gouv.fr des jeux de données rassemblant les instruments de recherche au format apeEAD, les circulaires des archives, l’annuaire des services d’archives, les données statistiques sur l’activité des services publics d’archives, les règles juridiques d’accès aux documents publics.

Si une attention particulière a été portée aux fonctionnalités permettant de générer des données réutilisables, il en va de même de l’application FranceArchives dont le code est ouvert intégralement à la réutilisation. Le portail a été développé à l’aide de technologies libres et est publié, sous la licence CECILL-C, sur le compte Github du ministère de la Culture sous la forme de deux packages : francearchives-cubicweb et francearchives-cubicweb-edition

Enrichissement et traitement des données

Afin de mettre en cohérence des données nombreuses, produites par différents services, le portail s’appuie sur les possibilités offertes par le web sémantique pour nettoyer et réconcilier les lieux, agents (personnes et collectivités) et sujets indexés dans les inventaires. Le choix a été fait d’aligner les données sur des référentiels nationaux ou internationaux (wikidata, data.bnf, GeoNames, BAN – Base Adresse Nationale) afin d’ancrer FranceArchives dans le paysage numérique culturel et d’augmenter la visibilité des données archivistiques françaises.

Constatant que l’indexation des lieux est une pratique courante et relativement normalisée chez les archivistes, un effort particulier a été porté sur ces derniers. Un alignement automatique a été réalisé vers le référentiel international GeoNames, permettant d’enrichir les données initiales par la récupération des coordonnées géographiques. Pour les indexations de lieux précis à la rue, un alignement a été fait sur la base des adresses nationales. Plus de 80 000 noms de lieux ont été alignés et enrichis, permettant au portail de proposer une visualisation cartographique des données archivistiques.

L’alignement pour les noms de personne a été fait sur Wikidata et data.bnf.fr Le résultat est quantitativement moins important que pour les lieux. Cela s’explique par deux raisons. Tout d’abord, la majorité des noms de personnes citée dans les inventaires fait référence à des « anonymes » qu’on ne retrouve pas dans les référentiels existants. Ensuite, les libellés ne sont pas toujours normalisés ni suffisamment détaillés, il est pratiquement impossible d’identifier une personne avec ses seuls nom et prénom : les dates d’existence, la profession, souvent peu renseignés, constituent des éléments complémentaires indispensables pour une identification certaine. Cependant ces traitements ont permis, lorsque l’alignement a été possible de récupérer des informations supplémentaires telles que des dates et des professions. Les archivistes produisent également des notices (au format EAC-CPF) permettant d’identifier des producteurs d’archives. Grâce à l’import de ces notices, les index personnes et collectivités ont pu être enrichis.
Les sujets indexés dans les données ont été alignés sur le thésaurus pour l’indexation des archives locales (ex-thesaurus W).

Ce traitement des données est un travail de longue haleine qui se poursuit. Pour en savoir plus sur la mise en œuvre de ces traitements, vous pouvez lire l’article des Carnets de recherche du SIAF concernant la construction des points d’accès unifiés vers les archives.