Plan du cours - Pace University

La fouille de données est l'étude des techniques et des méthodes pour l'
extraction automatique .... L'examen aura lieu le lundi 28 juin 2004. ... La qualité
du français sera considérée dans la correction des travaux (pour un maximum de
10%).

Part of the document


Fouille de données
Plan de module
Fouille de données
Promotion IX Semestre II
Date début : 17/06/2004
Date fin : 23/06/2004
Professeur : Dr. Christelle Scharff
Adresse : Pace University, Computer Science Department, One Pace
Plaza, New
York City, NY, 10038
Téléphone : 00 1 212 346 1016
Courriel : scharffc@yahoo.com (préférable) et cscharff@pace.edu
Site Toile : http://www.csis.pace.edu/~scharff
Site Toile du cours : http://www.csis.pace.edu/~scharff/DMIFI/ Description du module
La fouille de données est l'étude des techniques et des méthodes pour
l'extraction automatique d'informations ou de connaissances nouvelles ou
cachées dans des entrepôts de données. Les applications de ce domaine
incluent la prise de décision, l'analyse de marchés, l'analyse du panier de
la ménagère, l'aide au diagnostique, et l'exploration scientifique. Le site
Internet Amazon.fr, populaire pour la vente de livres, cds, dvds, utilise
la fouille de données pour analyser les habitudes de ses clients. Ce cours couvre les principales techniques et méthodes de fouille de
données : modèles probabilistes, les réseaux de neurones, la segmentation
des données en groupes, la classification des données par arbre de
décision, et la fouille par règles d'association et par regroupement. Les
techniques sont illustrées par de nombreux exemples et l'utilisation d'un
logiciel. Objectifs généraux
Ce module vise à définir ce qu'est le domaine de la fouille de données et
à présenter l'éventail des méthodes utilisées en fouille de données, à
comprendre leurs avantages et désavantages, et leurs domaines
d'application. Certaines techniques d'évaluation des modèles seront
proposées. D'un point de vue pratique, les étudiants utiliseront les
différentes méthodes de fouille de données sur divers ensembles de données.
Objectifs spécifiques
Ce module a comme objectifs plus particuliers de :
. Présenter les entrepôts de données et les opérations qui leur sont
associées
. Etudier les méthodes de fouille de données suivantes:
. Arbres de décision
. Règles d'association
. Régression logistique
. Bayes
. K plus proches voisins
. Regroupement (cluster)
. Réseaux neuronaux
. Familiariser les étudiants avec un logiciel de fouille de données : Weka,
XLMiner ou DBMiner
. Rechercher et pratiquer sur l'utilisation de la fouille de données en
géologie
Calendrier prévu
|Jour |Dates[1]|Contenu[2] |
|1 |17/6/200|Entrepôt de données |
| |4 | |
|2 |18/6/200|Introduction à la fouille de données |
|(matin)|4 | |
|2 |18/6/200|Les arbres de décision |
|(après-|4 | |
|midi) | | |
|3 |21 |Règles d'association |
|4 |22 |Régression logistique |
| | |Bayes |
| | |Algorithme des K plus proches voisins |
|5 |23 |Regroupement (cluster) |
| | |Réseaux neuronaux |
| | |Travaux Pratiques : Introduction au travail de groupe 2 |
| |28/6/200|EXAMEN FINAL |70% |
| |4 | | |
| |29/6/200|TRAVAIL DE GROUPE 1 |10% |
| |4 | | |
| |30/6/200|TRAVAIL DE GROUPE 2 |20% |
| |4 | | |
Contenu
Les notes de lectures contiennent un plan de chacune des lectures.
Evaluation
L'évaluation des apprentissages acquis par les auditeurs se fera au moyen
de l'évaluation du contrôle continu et des travaux réalisés par les
auditeurs. Un groupe est composé de deux étudiants.
Travail de groupe 1 : Recherche 10%
. Recherche sur les fouilles de données appliquées à la géologie
Ces travaux consistent à trouver un article qui concerne les fouilles de
données appliquées a la géologie (plus particulièrement, la géologie
économique et les méthodes d'exploration), et à résumer succinctement la
recherche effectuée et les résultats obtenus. Les références complètes de
l'article devront apparaître clairement. Plus de détails concernant ce
travail sera posté sur le site toile du cours.
Ces travaux seront à envoyer le mardi 29 juin 2004, et à envoyer à :
scharffc@yahoo.com avec comme sujet pour le message : Recherche Géologie +
les noms des étudiants du groupe.
Travail de groupe 2 : Projet de fouille de données
20%
. Utilisation d'un logiciel (Weka, XLMiner, Dbminer) sur des données
particulières et analyse/evaluation de l'importance des résultats
Plus de détails concernant ce travail seront postés sur le site toile du
cours. Chaque groupe aura un travail précis à réaliser.
Ces travaux sont à envoyer le mercredi 30 juin 2004 à : scharffc@yahoo.com
avec comme sujet pour le message : Projet IFI + les noms des étudiants du
groupe. Examen final 70% L'examen aura lieu le lundi 28 juin 2004. (Consulter l'emploi du temps de
l'IFI) Tout retard dans la remise d'un travail entraînera une pénalité de 5% sur
la note attribuée à ce travail. La qualité du français sera considérée dans la correction des travaux (pour
un maximum de 10%). Les règlements de l'IFI concernant le plagiat ou la fraude seront
strictement appliqués. Références
Livres
M. Berry and G. Linoff. Data Mining : techniques appliquées au marketing, à
la vente et aux services clients. InterEditions, 1997. J. Han, and M. Kamber. Data Mining Concepts and Techniques. Morgan
Kaufmann. N. R. Nitin, and P. C. Bruce. Data Mining in Excel : Lecture notes and
Cases. T. Michell. Machine Learning. McGraw Hill, 1997. R. J. Roiger and M. W. Geatz. Data Mining : A Tutorial-Based Primer.
Addison Wesley. I. H. Witten, and E. Frank. Data Mining : Practical Machine Learning Tools
and Techniques with Java Implementations. Morgan Kaufmann.
Revue
U. Fayyad. The KDD Process for Extracting Useful Knowledge from Volumes of
Data. Communications of the ACM. R. J. Brachman. Mining Business Databases. Communications of the ACM.
Rapports techniques
F. Denis and R. Gilleron. Apprentissage à partir d'exemples. Rapport
Technique, Grappa, Université de Lille 3, 1999. Sites WEB
http://www.grappa.univ-lille3.fr/polys/fouille/
-----------------------
[1] Consulter l'emploi du temps de l'IFI.
[2] Les notes des lectures seront disponibles à
http://www.csis.pace.edu/~scharff/DMIFI/