Français - AIFBD
Les modalités de contrôle des connaissances et les formules d'examen ......
contenu informationnel : métadonnées (Dublin Core, Rdf?) et analyse du
contenu.
Part of the document
UNIMARC et Linked Data (ou Web de données) Gordon Dunsire
Consultant indépendant
Edimbourg, GB
Mél. : gordon@gordondunsire.com Mirna Willer
Université de Zadar
Département des Sciences de l'information et des bibliothèques
Zadar, Croatie
Mél. : mwiller@unizd.hr Traduit de l'anglais par :
Françoise Leresche
Bibliothèque nationale de France
Département de l'Information bibliographique et numérique Meeting : 187 - Advancing UNIMARC: alignment and innovation - IFLA
UNIMARC
Programme (UNIMARC)
Résumé : Le principal objectif de cette communication est de présenter des arguments
et de faire des recommandations pour représenter les formats UNIMARC pour
les données bibliographiques et d'autorité en RDF (Resource Description
Framework = Cadre de référence pour la description de ressources), la norme
du W3C pour structurer les données dans l'environnement du Web sémantique
et du Linked Data (ou Web de données). C'est une continuation du travail
déjà entrepris par les groupes respectifs de l'IFLA pour représenter en RDF
l'ISBD et les modèles conceptuels FRBR, FRAD et FRSAD. Les auteurs
recommandent vivement que le PUC propose à l'IFLA le financement du
développement de la représentation d'UNIMARC en RDF comme un projet de
recherche et développement. Introduction et arrière-plan « Le terme Linked Data (ou Web de données) renvoie à un ensemble de bonnes
pratiques pour publier et interconnecter des données structurées sur le
Web »[?]. Dans cette approche, les données sont exprimées sous la forme de
déclarations simples utilisant RDF (Resource Description Framework = Cadre
de référence pour la description de ressources) et interconnectées au moyen
d'identifiants exploitables par les machines et conformes à la syntaxe
définie pour les URI (Uniform Resource Identifier = Identifiant unique de
ressource). Les déclarations RDF se présentent sous la forme d'une
structure en trois parties « sujet-prédicat-objet » où le sujet identifie à
propos de quoi la déclaration est faite, le prédicat identifie l'aspect
spécifique du sujet qui est décrit et l'objet identifie ou présente la
valeur de cet aspect. Une déclaration RDF est de ce fait communément connue
comme un « triplet ». La base d'un triplet est son prédicat qui est
représenté comme une propriété RDF tandis que le sujet et l'objet
particuliers d'un triplet sont représentés comme des membres de classes
RDF. Les classes décrivent des choses et les propriétés décrivent les
relations entre ces choses ; les classes et les propriétés sont les types
d'éléments fondamentaux en RDF. La chose décrite comme une classe peut être
tout type de ressource ou d'entité à propos de laquelle on veut faire une
déclaration ; elle est utilisée comme le sujet d'un triplet. Les
terminologies contrôlées utilisées comme objets des triplets peuvent être
représentées comme des « vocabulaires de valeurs » en utilisant SKOS
(Simple Knowledge Organization System = Système simple d'organisation des
connaissances)[?] qui est un ensemble particulier d'éléments RDF défini
pour des thésaurus et des taxonomies simples. L'objet peut aussi être
représenté par une chaîne de données littérale, comme un nom de personne,
une mention d'édition, etc., ne faisant pas référence à un vocabulaire ou
une terminologie contrôlée.
Un triplet, ce sont essentiellement des métadonnées, c'est-à-dire des
données sur des données ; dans ce cas, des données sur le sujet du triplet.
Le Linked Data (ou Web de données) devrait donc intéresser particulièrement
la communauté des bibliothèques qui a élaboré des modes d'accès aux
métadonnées bibliographiques, sophistiqués et centrés sur l'utilisateur,
sous la forme de catalogues régis par des normes internationalement
reconnues. Une caractéristique du Linked Data (ou Web de données) est qu'il
est à l'échelle du Web, le Web sémantique, ce qui permet le partage des
données à un niveau global entre des sources multiples et hétérogènes. À
nouveau, ceci devrait être d'une utilité significative pour les
bibliothèques qui échangent des notices MARC (MAchine-Readable
Cataloguing = Catalogage lisible par machine) depuis les années 1960. Les données liées des bibliothèques, issues des notices existantes fondées
sur des normes internationales, seront d'une grande qualité et seront
disponibles en grande quantité, couvrant un grand nombre des ressources
d'information disponibles qui sont susceptibles d'intéresser les
utilisateurs du Web sémantique. À lui seul, WorldCat d'OCLC contient plus
de 230 millions de notices bibliographiques[?]. Une analyse du contenu des
notices MARC[?] a trouvé plus de 13 millions de sous-zones dans environ
420 000 notices ; en supposant que chaque sous-zone puisse générer un
triplet, cela suggère une moyenne de 31 triplets potentiels par notice. Ce
chiffre n'est pas réduit par les effets de duplications à l'intérieur de
WorldCat, dans la mesure où ceux-ci sont facilement compensés par les
notices qui ne sont pas rassemblées dans WorldCat, ce qui indique qu'il
doit y avoir au moins des billions de triplets renfermés dans les notices
existantes. D'une égale importance sont les données créées par les
bibliothèques pour le contrôle des points d'accès par des notices
d'autorité qui couvrent les personnes, les collectivités, les lieux, les
mots-matière et d'autres choses qui sont susceptibles d'intéresser une
audience plus large que les utilisateurs traditionnels des bibliothèques. Utiliser les normes en vigueur dans les bibliothèques comme base pour de
nouveaux triplets et extraire des triplets des notices existantes nécessite
la représentation de ces normes en RDF, soit en créant les éléments RDF
appropriés, soit en établissant des correspondances avec des éléments
existants. Ceci ne permettra pas seulement au Web sémantique de bénéficier
des métadonnées des bibliothèques ; ce devrait aussi améliorer
l'interopérabilité entre les entités bibliographiques, attributs et
relations, décrits dans des normes différentes mais apparentées. Les
propriétés RDF peuvent être choisies à partir de différentes normes et
mélangées à l'intérieur d'une même application pour atteindre ses
fonctionnalités requises, en utilisant un profil d'application du Dublin
Core[?] ou une ontologie exprimée en RDF/OWL[?]. L'IFLA, en tant qu'organisme de normalisation, devrait être
particulièrement intéressée à entrer dans le Linked Data (ou Web de
données) et dans l'environnement du Web sémantique car elle a pour mandat
de développer et de maintenir les modèles et les normes de l'information
bibliographique, et par là, de permettre à la communauté des bibliothèques
de mieux servir ses utilisateurs dans un environnement technologique en
mutation. En outre, en soutenant les développements conduisant à la
présentation en RDF de ses normes internationalement reconnues, l'IFLA
fournit une garantie d'authenticité et de fiabilité dans les métadonnées
créées par les bibliothèques, ce qui est d'une importance exceptionnelle
dans un environnement qui laisse « n'importe qui dire n'importe quoi sur
n'importe quelle ressource », tout en promouvant en même temps sa marque au-
delà des frontières de la communauté des bibliothèques. En utilisant des
relations explicitement définies, « il est possible de créer un web de
confiance par des calculs informatiques [Godlbeck and Parsia]. Établir un
système de confiance dans le Web sémantique rendra plus facile aux
ordinateurs la tâche de déterminer quelles informations proviennent d'une
source autorisée et quelles autres non »[?]. On peut faire remonter à 2006 la première initiative pour revoir les normes
de l'IFLA dans le contexte des technologies et des services du Web lorsque
le Groupe de révision de l'ISBD (ISBD Review Group) de la Section de
Catalogage de l'IFLA a décidé de prendre acte de la recommandation de son
Groupe d'étude sur l'indication des types de ressources (Material
Designations Study Group) et de développer un schéma XML pour l'ISBD. Le
Groupe d'étude sur l'ISBD en XML (ISBD/XML Study Group)[?] a été mis en
place en 2008 avec cet objectif ; toutefois, comme le travail du Groupe de
révision du modèle FRBR (FRBR Review Group)[?] pour mettre en relation le
modèle FRBR[?] avec RDF avait commencé l'année précédente, le Groupe
d'étude sur l'ISBD en XML a décidé de court-circuiter un balisage général
en XML et d'examiner la représentation de l'ISBD lui-même en RDF. Le projet
sur trois ans du Groupe d'étude sur l'ISBD en XML est aujourd'hui dans sa
phase finale et sera terminé en décembre 2011[?], [?]. Le Groupe de
révision du modèle FRBR a poursuivi son travail de représentation en RDF
des modèles de l'IFLA, en l'étendant aux modèles pour les données
d'autorité (FRAD)[?] et pour les données d'autorité matière (FRSAD)[?]. Les
représentations en RDF des trois modèles comme de l'ISBD ont été créées en
utilisant l'OMR (Open Metadata Registry = Bureau d'enregistrement des
métadonnées ouvertes)[?]. Il faut toutefois mentionner que toutes ces activités ont été menées en
concertation avec des recherches similaires dans le domaine faites par
d'autres parties intéressées, alimentant en retour le développement des
représentations en RDF des normes de l'IFLA[?]. Il faut aussi noter une
recherche faite pour tester la possibilité d'appliquer RDA (Resource
Description and Access = Ressources : Description et Accès) comme norme de
contenu pour UNIMARC, en complément et en correspondance avec l'ISBD, dans
le contexte du Web sémantique[?]. Les dernières éditions des formats UNIMARC, troisièmes éditions du format
bibliographique comme du format pour les données d'autorité, ont été
publiées respectivement en 2007[?] et en 2009[?] ; les mises à jour
suivantes sont en préparation par le PUC (Permanent UNIMARC Committee =
Comité permanent UNIMARC). Dans sa 3e édition, le format UNIMARC pour les
données d'autorité a déjà implémenté des caractéristiques particulières du
modèle FRAD afin d'être plus étroitement aligné sur ce modèle[?], tandis
que son aligne