Instructions aux auteurs pour la préparation d'articles pour la ... - Hal
La table de faits Examen contient deux mesures (Normale et Conclusion), .....
Kimball R., The Data Warehouse Toolkit: Practical techniques for building ...
Part of the document
Approche de modélisation multidimensionnelle des données complexes :
Application aux données médicales Sid Ahmed Djallal Midouni*, Jérôme Darmont**, Fadila Bentayeb** * Département d'informatique
Université Abou Bekr Belkaid - Tlemcen
B.P.230- Tlemcen 13000, Algérie
djmidouni@hotmail.com
** Équipe BDD, Laboratoire ERIC
Université Lumière - Lyon 2
5 avenue Pierre Mendès-France
69676 Bron Cedex, France
{jdarmont | bentayeb}@ eric.univ -lyon2.fr
Résumé. La vocation d'un entrepôt de données est l'analyse de données
pour l'aide à la décision dans les entreprises. La modélisation
multidimensionnelle est la base des entrepôts de données et de
l'analyse en ligne (OLAP). Ces techniques sont efficaces pour traiter
les données simples numériques, mais elles ne sont pas adaptées aux
données variées et hétérogènes provenant de différentes sources,
appelés communément données complexes. Dans cet article, nous abordons
le problème de la modélisation multidimensionnelle des données
complexes à travers le cas des données médicales du projet MAP
(Médecine d'Anticipation Personnalisée). Nous proposons un métamodèle
multidimensionnel étendu pour les données médicales en généralisant le
modèle cardiovasculaire du projet MAP. Enfin, nous avons spécifié et
réalisé un outil d'aide à la conception d'entrepôt de données
médicales.
Mots Clés : Modélisation des entrepôts de données, modèle
multidimensionnel, analyse en ligne, données complexes. 1. Introduction L'intérêt pour l'analyse de données s'est développé énormément ces
dernières années. Les entreprises se sont rendues compte de l'efficacité de
la technologie OLAP (On-line Analytical Processing) dans l'analyse et
l'exploration des données. Cette technologie est utilisée dans les systèmes
d'aide à la décision. Le plus souvent, ces systèmes sont basés sur des
techniques d'entreposage de données pour exploiter la grande masse
d'informations disponibles dans les entreprises à des fins d'analyse et
d'aide à la décision.
La manière la plus appropriée pour faciliter cette analyse OLAP est la
modélisation multidimensionnelle des données. Cette dernière représente les
données comme des points dans un espace multidimensionnel, Kimball (1996),
Vassiliadis et Sellis (1999).
La modélisation multidimensionnelle est donc une technique qui vise à
organiser les données de telle sorte que les applications OLAP soient
performantes et efficaces. Cependant, cette technique n'est pas adaptée à
un certain type de données, dites complexes.
Depuis quelques années, la nécessité de gérer et de traiter ce type de
données n'a cessé de s'accentuer à cause de leur variété (texte, image,
son, vidéo, etc.). Cette variété de données met clairement en évidence la
nécessité de créer de nouveaux modèles multidimensionnels pour ces nouveaux
types de données qui sont qualifiées de complexes. C'est dans ce contexte
que doit être repensée la modélisation multidimensionnelle.
Les modèles existants offrent un cadre agréable pour mener la
modélisation multidimensionnelle des données simples, mais ils ne sont pas
adaptés aux données complexes. En effet, les données complexes comportent
des mesures non additives, non agrégeables et qui ont des niveaux de
granularité différents, ce qui rend leur intégration dans des structures
multidimensionnelles plus difficile.
Le présent travail vise à apporter des solutions au problème de la
modélisation multidimensionnelle de données complexes, en l'occurrence les
données médicales du projet MAP (Médecine d'Anticipation Personnalisée[1]).
Notre objectif est de proposer un modèle multidimensionnel pour ces données
biomédicales, plus particulièrement pour les données du magasin
cardiovasculaire et de généraliser ce modèle vers un métamodèle pour
entrepôts de données médicales. Le rôle de cet entrepôt est d'intégrer et
de stocker toute information utile aux médecins MAP et de conserver
l'historique des données médicales pour permettre les analyses nécessaires
aux prises de décision.
Outre cette introduction, nous présentons dans la section 2 une
définition des données complexes suivie des principaux travaux traitant la
modélisation multidimensionnelle des données, plus précisément des données
complexes. La section 3 est relative à notre contribution par la
proposition du modèle multidimensionnel du module cardiovasculaire qui sera
généralisé par la suite vers un métamodèle permettant de prendre en charge
tous les types de données du projet MAP. La section 4 décrit une
implémentation possible de ce métamodèle dans une base de données
relationnelle ainsi que la manière de l'instancier pour définir les autres
magasins de données du projet MAP. La dernière section conclut ce travail
et présente quelques perspectives d'utilisation et de recherche ouvertes
par ce métamodèle. 2. Modélisation multidimensionnelle des données complexes La description des données complexes nécessite une certaine précision et
un espace de représentation adapté. A ce jour, il n'existe pas de modèle
universel pour toutes les formes de données complexes. Les données sont
qualifiées de complexes si elles sont, Darmont et al. (2005):
- multiformats : l'information est représentée sous différents formats
(base de données, données numériques, symboliques, textes, images,
sons, vidéos...) ; et/ou
- multistructures : les données peuvent être structurées, non
structurées ou semi-structurées (bases de données relationnelles,
collection de documents XML...); et/ou
- multisources : les données proviennent de différentes origines (bases
de données réparties, Web...) ; et/ou
- multimodales : un même phénomène est décrit par plusieurs canaux ou
points de vue (radiographies et diagnostic audio d'un médecin pour
évaluer l'état de santé d'un patient, données exprimées dans des
échelles ou des langues différentes...) ; et/ou
- multiversions : les données sont évolutives en termes de définition ou
de valeur (bases de données temporelles, recensements périodiques dont
les critères évoluent...).
Le modèle de données multidimensionnel est le c?ur d'un système
décisionnel, il est l'objet de plusieurs travaux. Certains proposent des
langages algébriques pour faciliter l'interrogation et la manipulation des
données de l'entrepôt, Agrawal et al. (1995), Cabibbo et Torlone (1998),
Pedersen et Jensen (1999), Pokorny et Sokolowsky (1999), Ravat et al.
(2001), Teste (2000).
Ces différentes propositions sont parfaitement adaptées aux applications
de données classiques, mais ne répondent pas complètement aux exigences des
applications à base de données complexes telles que les applications
médicales. La majorité de ces travaux ne prennent pas en compte les objets
de structure complexe. Cependant, Olivier Teste a spécifié des modèles de
représentation et des langages de manipulation qui sont dédiés aux
entrepôts et magasins de données complexes et évolutives et qui sont basés
sur le paradigme objet, Teste (2000). Il a intégré par ailleurs dans son
modèle la dimension temporelle afin de conserver l'évolution des données de
manière pertinente.
L'intégration et la structuration des données complexes dans une base de
données classique ont déjà été réalisées, Darmont et al. (2002). Ces
structures permettent la gestion et la consultation des données mais elles
ne sont pas appropriées à l'analyse des données. Le plus souvent, les
données complexes sont stockées dans les bases de données pour qu'elles
soient retrouvées plus facilement.
Tanasescu et al. ont conçu un modèle UML générique basé sur un modèle
général pour mieux identifier et représenter tous les types des données
complexes afin qu'elles soient prêtes au processus de modélisation
multidimensionnelle, Tanasescu (2003), Darmont et al. (2002). Dans le même
article, les auteurs ont proposé l'utilisation des techniques de fouille de
données permettant l'extraction des caractéristiques des données complexes
en vue de leur modélisation multidimensionnelle.
Les efforts de modélisation des données spatiales, considérées comme un
autre type de données complexes, se concentrent sur la représentation
arbitraire des objets géométriques (points, lignes, polygones, etc.) dans
un espace multidimensionnel, Guting (1994). La technologie SOLAP est basée
sur une structure multidimensionnelle pour supporter l'analyse spatio-
temporelle, Rivest et al. (2001). Miquel et al. proposent des solutions
pour concevoir ces structures lorsque les sources de données sont
hétérogènes des points de vue temporel, spatial et sémantique, Miquel et
al. (2001). Ces structures sont ensuite explorées dans l'environnement
SOLAP. D'autres auteurs, comme Zghal et al. se sont intéressés aux
problèmes de la modélisation multidimensionnelle des données spatiales en
se basant sur le développement d'un entrepôt spatial, Zghal et al. (2003). Dans le domaine médical, Pederson et Jensen proposent un modèle
multidimensionnel intégrant des données temporelles et imprécises pour la
gestion des patients d'un hôpital, Pedersen et Jensen (1999). Ils ont
résolu les problèmes de validité et d'incertitude des données