Actualité - 28 mars 2023

#FocusProjet IRIS : production d’instruments de recherche encodés en XML/EAD

Template de création d'une balise et visualisation sur le portail PANDOR
Template de création d’une balise et visualisation sur le portail PANDOR | © Maison des Sciences de l’Homme de Dijon
Le projet IRIS – Inventaire rouge de l’information sportive : trois décennies de Miroir du cyclisme (1960-1994) – est un projet lauréat de l’appel à projets #CollExPersée 2021_22. Focus sur la production d’instruments de recherche encodés en XML/EAD.

Le projet IRIS (Inventaire « Rouge » de l’Information Sportive), a pour objectif de traiter, diffuser et exploiter la collection complète du mensuel Miroir du cyclisme (1960-1994). Une équipe pluridisciplinaire observera le discours médiatique (et critique) porté sur le sport par un organe de presse proche du Parti communiste français.

La diffusion consiste en la mise en ligne sur le portail PANDOR[1] de la Maison des Sciences de l’Homme de Dijon, d’instruments de recherche encodés en XML-EAD[2] associant les documents numérisés.

Historiquement, nous produisions nos instruments de recherche en XML/EAD avec le module Aide au classement du logiciel Arkhéïa puis l’éditeur de documents XML oXygen. A l’arrivée d’un développeur informatique à la MSH, nous avons imaginé et mis en œuvre un autre process organisé autour de l’outil « tableur », pour ne nous concentrer que sur notre cœur de métier au pôle ADN[3] : la description archivistique et documentaire, indifféremment de la présentation et la mise en forme (syntaxique et graphique).

Nous travaillons avec des « modèles de transformation » réutilisables en fonction des situations rencontrées selon les projets ce qui nous permet de travailler en environnement reproductible.

La première étape consiste à inventorier la nature des données à décrire, la façon dont elles seront indexées et d’associer à chaque information un élément issu de la spécification XML/EAD, au plus près de la norme ISBD. Cela aboutit à la création d’un tableur dont chaque colonne correspond à une balise EAD et peut être traitée par une routine informatique. Le tableur est ensuite renseigné par un professionnel de l’IST.

La seconde phase consiste en la transformation du contenu tabulé en un fichier texte normé selon le standard XML/EAD. Ce processus est réalisé à l’aide d’une brique logicielle développée en Java[4] qui se charge d’analyser le contenu du fichier transmis, de le convertir en XML/EAD en utilisant le procédé XSLT[5]. Pour cela, nous disposons de plusieurs feuilles de style enregistrées sous forme de fichier texte au format XSL.

Afin de parvenir à ce résultat dans les meilleures conditions, un soin particulier est apporté à l’organisation des tableaux de données ainsi qu’aux modèles de transformation que l’on peut reproduire à l’infini pour avoir un retour immédiat sur le rendu final au sein de notre portail de diffusion.

Exemple de transformation pour la génération automatique des liens vers la visionneuse :

En supposant que nous disposons de la colonne « COTE » à partir de laquelle toutes les ressources numériques sont nommées et de la colonne « DAO » pour savoir si l’item dispose ou non de ce type d’information à produire et comment, nous pouvons produire une balise <dao/> de la façon simplifiée suivante :

<xsl:template name=’’createDAO’’>

<xsl:param name=’’role’’ />

<xsl:param name=’’href’’ />

<xsl:param name=’’title’’ />

<xsl:param name=’’altrender’’ />

<dao>

<xsl:attribute name=’’role’’><xsl:value-of select=’’$role’’ /></xsl:attribute>

<xsl:attribute name=’’href’’><xsl:value-of select=’’$href’’ /></xsl:attribute>

<xsl:attribute name=’’title’’><xsl:value-of select=’’$title’’ /></xsl:attribute>

<xsl:attribute name=’’altrender’’><xsl:value-of select=’’$altrender’’ /></xsl:attribute>

</dao>

</xsl:template>

Noter que l’attribut altrender est un attribut de travail ajouté temporairement et retiré automatiquement aux étapes suivantes, utilisé uniquement à des fins logistiques pour une autre brique logicielle tierce également développée en interne à des fins de contrôle qualité et de génération d’autres fichiers liés (XML/METS) lorsque le fonds considéré manipule des données OCéRisées, ce qui est le cas ici.

 Voir la page-projet depuis le site CollEx-persée >ici

Arnaud Millereux, développeur,

Agnès Viola, chargée de ressources documentaires, responsable IST du projet,

Maison des Sciences de l’Homme de Dijon

[1] Portail Archives Numériques et Données de la Recherche : https://pandor.u-bourgogne.fr/

[2] XML/EAD : https://www.bnf.fr/fr/ead-encoded-archival-description ou https://fr.wikipedia.org/wiki/Description_archivistique_encod%C3%A9e

[3] Pôle Archives Documentation Numérisation : https://msh-dijon.u-bourgogne.fr/la-plateforme-adn/

[4] Java : https://www.java.com/fr/

[5] XSLT : https://www.w3.org/TR/xslt-30/

Une actualité ou un événement à partager avec nous ?

Proposez vos actualités et événements afin qu'ils soient publiés sur le site du CollEx-Persée