2.3. Le Data mining, un processus dans l'ECD - Page d'accueil
Face à ces problèmes, les technologies du Data Mining, ou de découverte et
extraction ... base les données qui seront soumises à examen, dans la phase de
...
Part of the document
Sommaire . Introduction
.................................................................... 2
1. Le processus de KDD
..............................................................3
1. définition de KDD
..............................................................3
2. les étapes d'un processus KDD
.................................................3
3. pourquoi a-t-on besoin de KDD
......................................................4
2. Le concept de Data
Mining..........................................................5
2.1.
définition...........................................................
...................5
2.2. les utilisation actuelle de Data
Mining................................................5
2.3. le Data Mining, un processus dans l'ECD
...........................................5
2.4. architecture typique de Data
Mining..................................................6
3. Les tâches de Data
Mining...........................................................8
3.1. la
classification........................................................
................8
3.2.
l'estimation...........................................................
.................8
3.3. la
prédiction...........................................................
................8
3.4. le regroupement par
similitude........................................................8
3.5. l'analyse de
clusters..............................................................
......9
3.6. la
description...........................................................
...............9
4. Les données utilisées en Data Mining
......................................10
4.1. les données et tableaux de données
...........................................10
4.2. les
variables..............................................................
............10
4.3. les
individus..............................................................
............11
4.4. les catégories de tableau de
données.................................................11
4.5. les données textuelles
...........................................................12
5. Le processus de Data
Mining......................................................13
6. Les techniques de Data
Mining...................................................20
6.1. l'apprentissage
supervisé............................................................
20
6.1.1. la
régression...........................................................
........20
6.1.2. les arbres de
décision..........................................................21
6.1.3. les algorithmes
génétiques....................................................22
6.1.4. les réseaux de neurones
.....................................................22
6.2. l'apprentissage non supervisé (clustering)
............................................23
7. Les logiciels de Data
Mining.......................................................29
8. Etude de cas
.......................................................................
...32
.
Conclusion..............................................................
...............36 Introduction Les nouvelles technologies de l'information, en même temps quelles
facilitent le déplacement et le stockage des informations, contribuent à
leur croissance exponentielle, celles ci sont en nombre disproportionné par
rapport aux moyens humains pour les traiter. Les données constituent des
mines d'informations stratégiques aussi bien pour les décideurs pour que
les chercheurs et les ingénieurs. Il set indéniable qu'une part importante
des connaissances qui peuvent être décisives face à la concurrence restent
cachées dans des méga-bases de données, de la, les organismes ont besoin
de systèmes d'aide à l'analyse de plus en plus performants. Ces systèmes
doivent offrir des possibilités d'exploration très fine et de
représentation synthétique de l'information recueille et des nouvelles
connaissances déduites, aussi, ils doivent assurer la collecte, la
sélection et le filtrage de l'information.
Ainsi, que la prise en compte de données informelles collectées, sur le
terrain, par les différents acteurs de la veille. Face à ces problèmes, les technologies du Data Mining, ou de découverte
et extraction de connaissances décisionnelles à partir de données,
regroupent les diverses techniques permettant de trouver, dans des bases
des données, des connaissances qui ne sont pas accessibles par les outils
classiques. La découverte des connaissances dans les bases de données : « knowldge
Disvovery in Databases (KDD) » tel qu'il a été définie selon Fayyad « est
un processus consistant à identifier des informations et des relations
valides, nouvelle, potentiellement utiles, et compréhensibles dans les
données ». Il existe une distinction précise entre le concept de KDD et celui de
Data Mining. En effet, ce dernier n'est qu'une des étapes de découverte de
connaissances correspondant à l'extraction de connaissances à partir de
données. Cette étape consiste à recouvre uniquement l'extraction de
connaissances à partir de données (en appliquant le analyse des données et
les algorithmes de découverte). Dans ce rapport, nous allons présenter dans le premier et le deuxième
chapitre, le processus de KDD et le concept de Data Mining. Dans les chapitres suivis, nous allons montrer successivement, les
tâches, les données utilisées, le processus, les techniques et les
logiciels de Data Mining. A la fin, nous finirons avec une étude de cas et la conclusion. 1. Le processus de KDD
1.1. Définition
Le terme « Knowldge Discovery in databases (KDD)" (ou l'extraction de
connaissances à partir de données (ECD)) est utilisée depuis1989, et, est
le résultat de la convergence de recherches en apprentissage automatique,
reconnaissance de formes, bases de données, statistique, intelligence
artificielles, visualisation de données, etc.
D'après Han et Kamber, le processus KDD est l'analyse de BDDs (souvent très
grandes) afin de découvrir de relations insoupçonnées et de résumer les
données d'une manière à la fois compréhensible et utile.
Selon Fayyad, KDD désigne l'ensemble de processus d'extraction de
connaissances utiles à partir de données, et souligne le « high-level »
dans l'application de Data Mining.
Ce processus vise à transformer des données (volumineuses, multiformes,
stockées sous différents formats sur des supports pouvant être distribués)
en connaissances. Ces connaissances peuvent s'exprimer sous forme d'un
concept général : un rapport ou un graphique. Elles peuvent, aussi,
s'exprimer comme un modèle mathématique ou logique pour la prise de
décision. 1.2. Les étapes d'un processus de KDD De façon générale, le processus d'extraction de connaissances illustré dans
(schéma1) consiste en une séquence itérative des étapes suivantes : Sélection : Permet de sélectionner les données pertinentes pour la tâche de
data mining à accomplir. Pré-traitement : Cette phase traite la présence de bruits, d'erreurs et de
données manquantes. Transformation : Les données sont transformées ou consolidées dans un
format approprié à la tâche de data mining choisie. Data Mining : Dans cette phase, des méthodes intelligentes sont utilisées
afin d'extraire des modèles, règles, etc. Interprétation, évaluation : Enfin, cette étape identifie les modèles
intéressants représentant les connaissances, en se basant non seulement sur
des mesures d'intérêt mais aussi sur l'avis de l'expert.
[pic]
schéma. Processus d'extraction de
connaissances.
1.3. Pourquoi a-t-on besoin de KDD
La croissance extrêmement des données collectées dans les BDDs et, la
nécessité d'une réactivité efficace de la part des décideurs face à ces
informations nouvelles stimulées, cette