Les métadonnées sont très souvent utilisées pour décrire les documents et les archives. Ainsi, d’une manière générale, chaque document possède ses propres données descriptives. Plusieurs normes tel que le Dublin Core , normalisé comme norme ISO 15836, permettent de décrire des documents de manière simple et standardisée. Il est ainsi possible d’associer à un document des métadonnées comme, son titre, le créateur du document, un ou plusieurs mots clés, une description …Cet enrichissement sémantique permet d’accompagner les documents de données descriptives ou techniques complémentaires qui ne figurent pas toujours dans les documents eux-mêmes.
Afin d’encapsuler les métadonnées au sein même des fichiers, le standard XMP (Extended Metadata Platform) a été lancé en 2001 par Adobe. Il a été ensuite normalisé via la norme ISO 16684-1. Il s’agit d’un standard utilisant le formalisme XML et permettant d’embarquer les métadonnées dans les fichiers. Ainsi, les métadonnées sont portées par l’enveloppe XMP contenu dans le fichier. Il est alors facile de transporter le fichier accompagné de ses métadonnées mais aussi d’extraire les métadonnées en interrogeant la structure XMP embarquée. De nombreux formats supportent XMP dont le format PDF, le JPEG, le PNG et bien d’autres.
Afin d’étendre les possibilités de description des documents, plusieurs initiatives ont été menées autour de l’enrichissement sémantique. Vous avez certainement pris connaissance du « RIC » (Records In Context) expliqué sur le Blog Spark Archives par notre experte Charlotte Maday. Un très bon article à découvrir ou redécouvrir : « Un pour quatre : Records in Context, une nouvelle approche de la description archivistique« .
Pour intégrer les concepts d’enrichissement sémantique aux principes des structures XMP, une extension normative de l’XMP est actuellement en cours de rédaction. L’idée est simple puisqu’elle consiste à permettre de définir une ou plusieurs « unités sémantiques » (SU) par document. Par exemple, une image « Jpeg » représentant un personnage en premier plan et un monument visible au second plan pourrait être décrite sous la forme de deux unités sémantiques (deux zones). Bien entendu, cet exemple ne doit pas être restrictif car les types d’unité sémantique peuvent être nombreux. Une unité sémantique peut être n’importe quelle information telle que quelques caractères, des images, des notes de musique, des vidéos, un contenu internet, ou une combinaison de ceux-ci. Chaque unité sémantique est décrite par un paquet de métadonnées (paquet XMP) et peut contenir n’importe quel type de métadonnées (descriptives, structurelles, techniques, administratives). Une unité sémantique peut contenir des ressources externes identifiées via un IRI (Internationalized Resource Identifiers). Une SU peut être indépendante, peut avoir des zones superposées avec d’autres SU, peut avoir des relations avec d’autres SU.
L’ensemble de ces paquets XMP peuvent fortement enrichir les documents constitués de multiples SU. Il devient alors assez facile d’extraire les métadonnées des multiples SU transportées par la structure XMP intégrée au document. Un intérêt indéniable pour décrire des documents complexes à archiver et dont les jeux de métadonnées doivent rester figés et intègres dans le temps. Une opportunité pour la mise en relation de réseaux d’unités sémantiques portés par les documents eux-mêmes.
Spark Archives est déjà sur les starting block pour implémenter un extracteur d’unités sémantiques basé sur le XMP et sur l’extraction de métadonnées XMP des fichiers PDF.
Christian DUBOURG
Directeur pôle innovation et conformité Spark Archives