Nom de l'UE : DM : Data Mining - LIRIS - CNRS

13 avr. 2007 ... Examen terminal (50%) (coefficient 3). Type de l'UE. Optionnelle : OUI Formation
: Mention Informatique, Spécialité CODE Parcours : CR.

Part of the document


m |Nom de l'UE : DM : Data Mining |
| |
|Nombre de crédits : 3 |
|UFR de rattachement : UFR Informatique |
| |
|Responsables de l'UE : Jean-François Boulicaut Tél : 04 72 43 89 05 e-mail : |
|Jean-Francois.Boulicaut@liris.cnrs.fr |
|Contact formation : Alain Mille, Alain Guinet Tél : e-mail : |
|alain.mille@liris.cnrs.fr |
| |
|Enseignement présentiel : |
|Répartition de l'enseignement présentiel : |
|Cours Magistraux 18 heures |
|Travaux Dirigés 4 heures |
|Travaux Pratiques 8 heures |
|Contrôle des connaissances[1] |
|Contrôle continu (50%)[2] : Une note par |Examen terminal (50%) (coefficient |
|compte-rendu de TP réalisé par groupe de 2 |3) |
|étudiants (3 notes avec coefficient 1) | |
|Type de l'UE |
|Optionnelle : OUI Formation : Mention Informatique,|
|Spécialité CODE Parcours : CR |
|Place de l'UE dans le parcours : M2 semestre : 3 |
|Modalités d'accès à l'UE (pré-requis conseillés) : oui/non Non |
|lesquels : |
|Programme - contenu de l'UE |
| |
|Argumentaire |
| |
|La fouille de données (ou « data mining ») a été identifiée comme l'une des 10 |
|technologies émergentes pour le 21° siècle (MIT Technology Review, 2001). Le but de|
|cette discipline est d'assister la découverte de connaissances à partir de grands |
|volumes de données. Il s'agit de tirer les leçons de la sous-exploitation des |
|volumes actuellement collectés (science, médecine, tertiaire) et de travailler à en|
|dégager de la valeur ajoutée (découvertes scientifiques, aide au diagnostic, |
|amélioration de la relation client-fournisseur). Son développement, tant industriel|
|qu'académique, s'est construit à l'intersection de plusieurs disciplines existantes|
|comme, par exemple, l'apprentissage automatique, la gestion de bases de données, la|
|visualisation,ou encore les statistiques. |
| |
|Objectifs de l'UE |
| |
|Dans cette UE, la fouille de données est considérée comme une extension plutôt |
|naturelle des processus d'interrogation de bases de données (y compris l'analyse de|
|données multidimensionnelles au moyen de requêtes OLAP). Le cours va considérer les|
|principales méthodes utilisées pour la mise en ?uvre de processus d'extraction de |
|connaissances à partir de données. Nous allons donc traiter la succession des |
|principales étapes que sont le pré-traitement des données (par exemple, |
|l'exploration, le nettoyage, le codage), les extractions de motifs ou de modèles |
|(par exemple, le calcul de règles ou la découverte de motifs, l'apprentissage de |
|classifieurs) et enfin leurs post-traitement (par exemple la recherche |
|d'informations surprenantes). Les techniques classiques (techniques statistiques |
|comme l'ACP, classification supervisée - arbres de décision, NB règles -, |
|classification non supervisée ou « clustering », découverte de motifs ensemblistes |
|ou séquentiels) seront considérées. Des exemples de processus de fouille de données|
|tirés de la vie réelle seront présentés. Ils concerneront, entre autres, l'analyse |
|de données sur la vente de produits, l'analyse des usages sur des sites WWW, mais |
|aussi quelques applications en E-science (notamment en biologie moléculaire et en |
|médecine). Le travaux dirigés permettront d'assimiler les aspects théoriques et |
|algorithmiques qui devront ensuite être mis en ?uvre au moyen de la plate-forme |
|WEKA dans le cadre des travaux pratiques. |
|Plan du cours |
| |
|C1 Motivations et terminologie |
|C2-C3 Exploration et analyse de données |
|C4 De l'analyse de données à la fouille de données : la classification |
|C5-C6 Prédiction et classification supervisée |
|C7-C8 Description et extraction de motifs ou de règles |
|C9 Conclusion : offre logicielle et domaines d'applications |
| |
|Bibliographie |
| |
|Pang-Ning Tan, Michael Steinbach and Vipin Kumar |
|"Introduction to data mining", Addison-Wesley, 2006. |
| |
|Ian H. Witten and Eibe Franck. Data Mining: Practical Machine Learning Tools and |
|Techniques (Second Edition). Morgan Kaufmann, June 2005. 525 pages |
| |
|Jiawei Han and Micheline Kamber. Data Mining:Concepts and Techniques. Morgan |
|Kaufmann, June 2001. 550 pages |
| |
|David Hand, Heikki Mannila, Padhraic Smyth. Principles of Data Mining. MIT Press. |
|2001. |
| |
|Sitographie |
| |
|http://www.kdnuggets.com/ |
|http://www.cs.waikato.ac.nz/~ml/index.html |
| |
|Compétences acquises |
| |
|Méthodologiques : méthodes de recherche, analyse et synthèse bibliographique, |
|processus interactifs complexes pour la découverte de connaissances à partir de |
|données. |
| |
|Techniques : principales techniques d'apprentissage automatique au service de la |
|découverte de connaissances dans des bases de données, algorithmes de data mining |
| |
|Secteur d'activité concerné et compétences métier acquises : laboratoires de |
|recherche, équipes de recherche et développement, équipes de développement de |
|logiciels fondés sur l'exploitation de données à forte valeur ajoutée |
| |
| |
| | -----------------------
[1] Préciser le poids attribué à chaque note : contrôle continu, contrôle
terminal.
[2] Préciser les modalités : note attribuée à l'issue de séances de T.P. ou
note de partiel ;