Mémoires des Archéologues et des Sites Archéologiques, le consortium MASA au service de la communauté archéologique

CNRS Info Sciences humaines et sociales

MASA est l’un des consortiums de la Très grande infrastructure de recherche (TGIR) Huma-Num, animé par dix partenaires interinstitutionnels parmi lesquels les Maisons des Sciences de l’Homme (MSH) jouent un rôle fondamental. Il est né du besoin impérieux de sauvegarder les archives des archéologues et des sites archéologiques.

Dans une première phase (2013-2016), les compétences des partenaires du consortium ont été mobilisées pour le traitement — de la numérisation à la publication — de corpus d’archives et de données archéologiques. Des preuves de concept, établies à partir de ces terrains expérimentaux, sont destinées à faire la démonstration du partage et de l’interopérabilité des données. La deuxième phase qui vient de s’achever (2017-2020) a consisté à réunir ces briques pour constituer un écosystème numérique selon le cycle de vie des données, conforme aux principes FAIR (Facile à trouver, Accessible, Interopérable, Réutilisable). L’objectif de la troisième étape qui s’ouvre maintenant est la diffusion des outils et des bonnes pratiques auprès de la communauté archéologique.

Le consortium est fondé sur des constats en grande partie partagés avec d’autres disciplines des sciences humaines et sociales. Tout d’abord, celui inhérent à la discipline elle-même : la fouille archéologique est, par définition, en grande partie destructrice de son propre objet d’étude. L’expérience n’étant pas renouvelable, l’enregistrement des données sur le terrain constitue, avec l’ensemble du matériel recueilli, des archives de fouilles irremplaçables, qualifiables de données primaires. Le deuxième constat porte sur la constitution de cette documentation qui donne lieu à des fonds d’archives identifiables à partir d’une personne ou d’un site. Ensuite, vient la nature des cahiers de fouilles, construits sous des formes plus ou moins structurées, du journal de bord relatant le récit des découvertes au système d’information selon des unités d’enregistrement formalisées. Finalement, le constat principal est celui d’une formidable hétérogénéité, elle-même porteuse d’informations. Elle concerne aussi bien la nature des archives (textes, photographies, plans, relevés, croquis, mesures...), que leurs formats (papier ou numérique), ou encore la structure de l’information (récit, systèmes d’information). Les étapes successives de l’informatisation, rythmée par l’accessibilité à de nouveaux outils techniques et/ou méthodologiques, ont chacune apporté leur lot de tentatives d’homogénéisation universelle, la plupart avortées ou fort heureusement abandonnées. Ces expériences ont elles-mêmes produit de nouvelles archives nativement numériques (en particulier dans les années 1990-2000) particulièrement hétérogènes par leurs formats, leurs structures, leurs supports. Afin de répondre aux besoins de sauvegarde et de mise à disposition des fonds d’archives, ainsi que d’interconnexions et d’interrogations croisées des jeux de données, les efforts du consortium MASA ont été déployés selon deux axes. Le premier porte sur les bonnes pratiques d’archivage et les plans de gestion de données, qui sont de plus en plus considérés par les agences de financement comme des livrables obligatoires des projets de recherche.Les travaux du second sur l’interopérabilité ont conduit à s’orienter vers le web sémantique.

Résolument ancré dans la dynamique de la science ouverte, MASA est un vecteur de diffusion des principes FAIR dans la communauté archéologique. L’objectif est de favoriser la FAIRisation des données, à l’image de celles mises à disposition par les partenaires du consortium, qui alimentent progressivement la plateforme OpenArchaeo dédiée à la publication de jeux de données dans le web sémantique. Le consortium bénéficie des compétences exceptionnelles de chercheurs, chercheuses et ingénieur(e)s des universités et du CNRS qui, chacun dans leur domaine, ont permis d’atteindre collectivement un très haut niveau d’expertise sur chaque étape de la conduite d’un projet numérique. Cette base robuste et l’engagement déterminé du consortium dans l’application et la diffusion des principes FAIR a conduit à constituer un écosystème numérique structuré selon le cycle de vie des données. Il mobilise des méthodes, des référentiels, des standards et des outils existant pour répondre aux besoins des projets mis en œuvre. L’expertise des partenaires du consortium et les expériences conduites sur différents corpus ont permis d’identifier les méthodes et outils à réutiliser, celles et ceux à consolider et, enfin, les manques à combler. L’écosystème MASA fait ainsi appel à des outils open source (OPIDoR, ARKéo, OpenRefine, 3M, Ontop, Nakala, Isidore, IIIF, GeoNames, PerioO, CIDOC CRM...). Il soutient fortement le développement de certains (Opentheso1, PACTOLS2, ArkeoGIS). Enfin, il réalise des développements appropriés (Plan de Gestion de Données pour l’archéologie3, OpenTermAlign, OpenGuide, OpenArchaeo, LogicistWriter). Dans tous les cas, le consortium veille au respect des standards nationaux et internationaux, en application des principes FAIR.

À titre d’exemple, le consortium a fait le choix du CIDOC Conceptual Reference Model (CRM), l’ontologie4 de domaine dédiée au patrimoine culturel, coordonné par un consortium international (CRM SIG). Le rôle du CIDOC CRM, pour MASA, est de servir de surcouche unique et transversale pour faire communiquer des jeux de données hétérogènes publiés sur le web, afin de les rendre interopérables sans modifier ni le format ni la structure des bases de données initiales.

MASA a développé, en partenariat avec la société SPARNA, spécialisée en Web sémantique, et le Laboratoire d’Informatique Fondamentale et Appliquée de Tours (LIFAT), la plateforme web sémantique OpenArchaeo. Exploitant les triplestores5 archéologiques appariés avec le CIDOC de manière fédérée, OpenArchaeo a été conçu avec deux interfaces distinctes. La première est un classique Endpoint SPARQL pour des requêtes en langage SPARQL (langage dérivé du SQL pour interroger le web sémantique) couplé à des services web pour exploiter le triplestore MASA. Cette première interface, dont la vocation est d’être exploitée par des machines, est davantage accessible à des informaticiens. La seconde, résolument plus conviviale, est basée sur un système d’icônes et de concepts bien maîtrisés par les archéologues (Unité stratigraphique, Mobilier, Fait, Site...). OpenArchaeo a fait l’objet du développement du composant SPARNATURAL (pour produire une requête SPARQL à partir du langage naturel), modulable et réutilisable pour lequel les manifestations d’intérêt se multiplient dans d’autres domaines que l’archéologie.

Les travaux de MASA ont un écho au-delà des frontières qui se traduit par des collaborations dans des projets internationaux tel que le programme Horizon 2020 de l’Union européenne ARIADNEplus, qui rassemble plus de quarante partenaires en archéologie et en informatique pour offrir une infrastructure de partage des données, ou le COST SEADDA qui porte sur l'avenir des données archéologiques en Europe et au-delà. MASA travaille non seulement avec d’autres consortiums d’Huma-Num (3D-SHS et CAHIER, par exemple), mais aussi d’autres communautés dans le champ du patrimoine culturel qui sollicitent MASA sur les enjeux de l’interopérabilité et du web sémantique. C’est, par exemple, le cas du groupe de travail Données numériques du Chantier Notre-Dame (CNRS/Ministère de la Culture), de celui sur SPARNATURAL avec les Archives nationales et la Bibliothèque nationale de France, ou encore avec le projet européen 4CH, Competence Centre for the Conservation of Cultural Heritage. Cette double ouverture, interdisciplinaire, vers le patrimoine culturel d’une part et l’intelligence artificielle d’autre part, est une reconnaissance des travaux et de l’expertise du consortium. Elle invite à poursuivre ces collaborations essentielles et l’investissement en recherche, en particulier sur le web sémantique, la fouille de données et la réutilisation des données (le R des FAIR) qui sont des enjeux majeurs de la science ouverte. C’est ce qui permettra l’ouverture vers de nouveaux champs de recherche fondés sur l’exploitation de grands corpus archéologiques publiés dans le web des données, soit en réunissant virtuellement des fonds dispersés, soit en faisant émerger des questionnements inédits lorsqu’il sera possible d’exploiter les règles d’inférences dans les graphes de données.

En 2021, MASA organisera une rencontre nationale réunissant la communauté archéologique française dans toutes ses dimensions (ministère de la Culture, Conseil national de la recherche archéologique, archéologie préventive publique — Inrap et collectivités territoriales — et privée, archéologie française à l’étranger — Réseau des Écoles françaises à l'étranger et Unités mixtes des Instituts français de recherche à l’étranger - UMIFRE —, universités, CNRS et sociétés savantes). Cette rencontre permettra de présenter l’écosystème numérique et la palette d’outils qui le compose, ainsi qu’une offre de formation aux bonnes pratiques à travers les principaux outils (MASA a, par exemple, mis en place des formations au CIDOC CRM à l’aide d’un jeu de cartes). L’objectif de cette rencontre est de diffuser largement les pratiques et les outils pour la mise à disposition de corpus archéologiques interopérables dans des plateformes nationales et internationales.

Lire la lettre de l’INSHS n°69 – Janvier 2021