Contenu éditorial simple : Francearchives : contenus et réalisations

Le portail francearchives.fr, l’agrégateur national des archives françaises, a été mis en ligne en mars 2017. Ce portail est né du besoin d’offrir à tous un accès simplifié aux descriptions d’archives dispersées sur tout le territoire, entre différents services nationaux et territoriaux, publics ou privés et de statuts juridiques variés.

Que trouve-t-on sur le portail ?

Le portail ne donne pas accès directement aux archives, mais aux descriptions d’archives ou « métadonnées ». Ces métadonnées sont le plus souvent organisées au sein d’une arborescence. On décrit d’abord globalement l’ensemble des documents ou du fonds (l’intitulé, les dates, le producteur, le lieu de conservation, etc.) ; puis on décrit de façon précise les documents qui constituent le fonds. L’ensemble des descriptions est appelé instrument de recherche (« Inventaire » sur FranceArchives) et est découpé en composants (« Document d’archives » sur FranceArchives).
Si les archives décrites sont numérisées, l’utilisateur accède au document numérisé grâce à un lien qui le renvoie vers le site source.
Si les archives décrites ne sont pas numérisées, il est possible de consulter physiquement le document en salle de lecture ou dans certains cas de demander une reproduction du document auprès du service qui le conserve.

Deux ans et demi après la mise en ligne, le portail signale presque 9 millions de documents d'archives conservés dans 65 institutions partenaires :

  • archives nationales ou ministérielles (5 services pour 26 875 inventaires)
  • archives départementales (41 services pour 17 887 inventaires) et communales (10 services pour 1 044 inventaires)
  • établissements publics (8 institutions pour 1 225 inventaires)
  • service d’archives privées (1 institution – 7 inventaires)

Le portail accepte les données de tout service qui possède des archives publiques ou privées et qui permet leur consultation par le public. La procédure pour rejoindre le portail est simple.

Outre ces descriptions d’archives, le portail valorise les activités culturelles et scientifiques des services d’archives, telles que publications, expositions virtuelles, les aides à la recherche généalogiques et les dossiers thématiques. Il diffuse également de nombreuses ressources à destination des professionnels des archives, notamment tout ce qui est lié au traitement et à la gestion des archives.

Rendre visible

L’autre objectif du portail est d’augmenter la visibilité des métadonnées archivistiques sur le web en portant une attention particulière au référencement par les moteurs généralistes grâce à la mise en place de balises sémantiques telles que schema.org (langage commun des descriptions des données adoptées par Google, Bing et Yahoo en 2011). Dans le code des pages du portail, des balises signalent aux robots indexeurs des moteurs le type de données : titre, lieu, agent, date, etc.
Pour contribuer à ce meilleur référencement et aux partages de ces données, le portail utilise des URLs uniques et pérennes, indépendantes des mouvements des contenus sur le site. Concernant les inventaires, la pérennité des URL repose sur la pérennité des identifiants des inventaires fournis par les partenaires.

Dans un objectif de diffusion toujours plus large, le portail FranceArchives joue le rôle d’agrégateur national pour le Portail européen des archives. Les données mises à disposition sur le portail français sont transférées sur le Portail européen qui les diffuse à son tour. Pour ce faire, un outil de conversion des instruments de recherche en ApeEad, format pivot du portail européen, a été développé.

Enfin, ainsi que le prévoient les conventions signées avec les contributeurs, les jeux de données tirés des informations rassemblées par le portail sont proposés sous Licence ouverte (type Etalab), c'est-à-dire gratuitement et dans des formats ouverts qui en permettent la réutilisation, tout en respectant la législation en vigueur (respect des différents secrets et intérêts protégés par la loi). Sont ainsi proposés sur la plateforme data.culture.gouv.fr des jeux de données rassemblant les instruments de recherche au format apeEAD, les circulaires des archives, l’annuaire des services d’archives, les données statistiques sur l’activité des services publics d’archives, les règles juridiques d’accès aux documents publics.

Si une attention particulière a été portée aux fonctionnalités permettant de générer des données réutilisables, il en va de même de l’application FranceArchives dont le code est ouvert intégralement à la réutilisation. Le portail a été développé à l’aide de technologies libres et est publié, sous la licence CECILL-C, sur le compte Github du ministère de la Culture sous la forme de deux packages : francearchives-cubicweb et francearchives-cubicweb-edition

Enrichissement et traitement des données

Afin de mettre en cohérence des données nombreuses, produites par différents services, le portail s’appuie sur les possibilités offertes par le web sémantique pour nettoyer et réconcilier les lieux, agents (personnes et collectivités) et sujets indexés dans les inventaires. Le choix a été fait d’aligner les données sur des référentiels nationaux ou internationaux (wikidata, data.bnf, GeoNames, BAN – Base Adresse Nationale) afin d’ancrer FranceArchives dans le paysage numérique culturel et d’augmenter la visibilité des données archivistiques françaises.

Constatant que l’indexation des lieux est une pratique courante et relativement normalisée chez les archivistes, un effort particulier a été porté sur ces derniers. Un alignement automatique a été réalisé vers le référentiel international GeoNames, permettant d’enrichir les données initiales par la récupération des coordonnées géographiques. Pour les indexations de lieux précis à la rue, un alignement a été fait sur la base des adresses nationales. Plus de 80 000 noms de lieux ont été alignés et enrichis, permettant au portail de proposer une visualisation cartographique des données archivistiques.

L’alignement pour les noms de personne a été fait sur Wikidata et data.bnf.fr Le résultat est quantitativement moins important que pour les lieux. Cela s’explique par deux raisons. Tout d’abord, la majorité des noms de personnes citée dans les inventaires fait référence à des « anonymes » qu’on ne retrouve pas dans les référentiels existants. Ensuite, les libellés ne sont pas toujours normalisés ni suffisamment détaillés, il est pratiquement impossible d’identifier une personne avec ses seuls nom et prénom : les dates d’existence, la profession, souvent peu renseignés, constituent des éléments complémentaires indispensables pour une identification certaine. Cependant ces traitements ont permis, lorsque l’alignement a été possible de récupérer des informations supplémentaires telles que des dates et des professions. Les archivistes produisent également des notices (au format EAC-CPF) permettant d’identifier des producteurs d’archives. Grâce à l’import de ces notices, les index personnes et collectivités ont pu être enrichis.
Les sujets indexés dans les données ont été alignés sur le thésaurus pour l’indexation des archives locales (ex-thesaurus W).

Ce traitement des données est un travail de longue haleine qui se poursuit. Pour en savoir plus sur la mise en œuvre de ces traitements, vous pouvez lire l’article sur hypothèse concernant la construction des points d’accès unifiés vers les archives.