Actualité - 14 septembre 2022

#FocusProjet BaOIA : le fonds d’affiches numérisées de La Contemporaine

Affiche de l’Exposition universelle des Arts incohérents. Cote : AFF14960 (10). Chéret. Paris
Affiche de l’Exposition universelle des Arts incohérents. Cote : AFF14960 (10). Chéret. Paris | © Bibliothèque de l’Argonnaute : https://argonnaute.parisnanterre.fr/ark:/14707/a011552401722vj7Svc
Le projet BaOIA - Boîte à Outils IA pour analyses de données massives en sciences humaines - est un projet lauréat de l’#AAPCollExPersée 2020.

Le fonds d’affiches numérisées de La Contemporaine est un des corpus étudié par le projet BaOIA (Boîte à Outils d’Intelligence Artificielle) dont la visée est de développer plusieurs outils d’analyse de données afin d’exploiter des collections numérisées importantes en sciences humaines et sociales.

Ce corpus compte un peu moins de 27 000 fichiers images (une même affiche pouvant faire l’objet de plusieurs fichiers images). Ces affiches sont stockées sur un serveur interne ; une partie d’entre elles, libres de droit, est accessible via la bibliothèque numérique l’Argonnaute. Leurs métadonnées sont consultables grâce à des instruments de recherche Calames (description par lot et à la cote) ainsi qu’à travers un fichier inventaire (description par lot).

Le premier travail effectué sur ce corpus a résidé dans le regroupement et le nettoyage de toutes les métadonnées disponibles à propos des affiches numérisées puis, dans la correspondance de ces informations avec le nommage du fichier issu de la numérisation.

Le second travail a porté sur l’enrichissement des métadonnées en ajoutant le contenu textuel du document (résultat de l’océrisation) ainsi qu’en indiquant pour un fichier donné, les doublons et images similaires potentiels à l’intérieur du corpus.

En accompagnement de ces travaux, plusieurs visualisations du corpus ont été réalisées dans le cadre d’ateliers réunissant conservateurs, chercheurs, documentalistes, archivistes et ingénieurs de recherche pour définir les objectifs de valorisation et d’exploitation du corpus. Ces visualisations ont permis de mettre en évidence certains paramètres et d’avoir un aperçu global de l’étendue du corpus.

L’ensemble des métadonnées obtenues a été versé dans la base de données du Centre des Sciences des Littératures en langue Française (CSLF), accessible avec un identifiant. Ainsi, les chercheurs et conservateurs peuvent consulter l’ensemble des informations répertoriées sur les affiches numérisées via une seule et même plateforme. À terme, l’ensemble des données sera disponible sur un site de consultation dédié.

Accéder à la page-projet depuis #CollExPersée : ici

Léa Périssier, ingénieure d’études au sein du projet BaOIA

Une actualité ou un événement à partager avec nous ?

Proposez vos actualités et événements afin qu'ils soient publiés sur le site du CollEx-Persée