III) Les tests d'hypothèses statistiques - PIIMT

VI) L'exploration multivariée. - ACP. - Classification. - Analyse discriminante .... il s'agit ici tout simplement de rappeler l'importance de l'examen minutieux des ...


un extrait du document



ciel SPSS classés par type de données et par thématique statistique. Le point de départ qui a motivé ce travail est l’animation des deux séminaires sur SPSS que j’ai effectuée au sein du bureau d’études Ameritech - Rabat, à l’intention des cadres du ministère de l’habitat, du 26 octobre au 4 novembre 2007.

Les plans des séminaires ont été dictés principalement par un contact préalable avec quelques cadres du ministère qui se sont inscrits au séminaire . Les besoins des participants ont ainsi été délimités, ce qui a permis de développer d’avantages les aspects qui intéressent le plus l’auditoire.

Le 1er séminaire de cinq jours est d’avantages une initiation à SPSS et aux traitements uni et bivariés des données, avec toutefois un aperçu sur les tests d’hypothèse et la notion de risques liés à une décision, ainsi qu’un premier abord des analyses multivariées.

Le deuxième séminaire, également de cinq jours, traite des analyses, uni, bi et multi- variées, des tests d’hypothèses et risques, de la modélisation statistique, ainsi qu’une sensibilisation aux récents développements tels que la statistique spatiale ou le data mining (la fouille des données) .

Etant donné la diversité des notions abordées en traitement statistique des données, le présent document est une synthèse qui a pour principal objet de faciliter l’orientation et la progression du lecteur à travers les références bibliographiques rencontrées lors des séminaires. Il est fortement conseillé de développer les manipulations du logiciel appliquant, pour chaque méthode, les notions recueillies des documents bibliographiques sur les exemples pratiques qui accompagnent les documents ou à défaut ceux intégrés au logiciel (études de cas et jeux de données).

Ainsi chacun pourra prendre en charge sa propre exploitation des documents et exemples en fonction d’objectifs de révisions ou d’approfondissements qu’il se fixe.

Enfin, étant donné le dynamisme connaît le sujet et son évolution permanente, il est naturellement très intéressant de mettre à jour, voire compléter les documents bibliographiques ci-joints, en effectuant de temps à autre des recherches de nouveaux documents, notamment sur la toile du web où les sites de plusieurs professeurs et laboratoires de recherche offrent une multitude de ressources pédagogiques. On trouve également des sites particulièrement consacrés à la statistique. Le site  HYPERLINK "http://www.wikistat.ca" www.wikistat.ca est dédié aux études de cas en traitement statistique et on y trouve également plusieurs documents pédagogiques de statistique.

I) Initiation au logiciel SPSS

A) présentation du logiciel SPSS
Il est intéressant de lire à titre d’introduction générale:
- l’article sur SPSS fait dans l’encyclopédie sur l’Internet, Wikipedia :  HYPERLINK "http://fr.wikipedia.org/wiki/SPSS" http://fr.wikipedia.org/wiki/SPSS

- ainsi que la présentation faite sur le site de SPSS Maghreb  HYPERLINK "http://www.spssmaroc.ma/spss/data_analysis.php" http://www.spssmaroc.ma/spss/data_analysis.php
dont des extraits sont repris dans  HYPERLINK "SPSS Maghreb.doc" SPSS Maghreb.doc

Par ailleurs, les possibilités de SPSS sont gigantesques et le meilleur moyen pour bien cerner chacune des possibilités qu’offre le logiciel est de pouvoir se référer très fréquemment au manuel de référence
 HYPERLINK "Spss Base User's Guide 14.0.pdf" Spss Base User's Guide 14.0.pdf.
Ce document est en effet, complet avec de nombreuses illustrations par des boîtes de dialogue aidant à la compréhension des manipulations à faire pour chaque commande.

Toutefois une bonne exploitation du logiciel SPSS passe nécessairement par un minimum de connaissances exactes des méthodes statistiques. A cet effet, il est proposé tout le long du présent document des liens hypertextes vers des documents de cours et/ou d’exercices se rapportant aux différentes parties traitées.

Un autre recours qu’il faut signaler ici est la fonction « Aide » intégrée au logiciel. On y trouve non seulement un index de recherche accompagné d’un lexique très développé pour chaque rubrique, mais aussi plusieurs exemples et cas d’étude dont on peut suivre les démonstrations pas à pas illustrant ainsi la grande partie des principales commandes et routines du logiciel.
Il est utile de consulter à ce sujet le chapitre 2 de  HYPERLINK "Spss Base User's Guide 14.0.pdf" Spss Base User's Guide 14.0.pdf.

B) Découverte de SPSS, manipulation de données :
Le diaporama qui suit nous introduit directement dans la pratique du logiciel :  HYPERLINK "cours_spss_revu.ppt" cours_spss.ppt

Après cette première présentation et dès les premiers contact avec SPSS on s’aperçoit que nous allons devoir nous familiariser avec un certain nombre de fonctionnalités du logiciel, citons notamment :
Les différentes interfaces de SPSS
L’éditeur de données
Le mode variables
Le mode données
Les étiquettes
Les données manquantes
La barre d’outils ; les commandes
Les boîtes de dialogue
L’éditeur de syntaxe
L’éditeur de résultats
L’introduction et les transformations de données
Les différents types de variables
La saisie des données et des caractéristiques des variables
La sélection d’individus selon une condition : if
La transformation des variables : la commande compute
Tous ces points qui ont fait l’objet des deux premiers jours du 1er séminaire, peuvent être repris avec beaucoup d’intérêt dans le document de Donald Long  HYPERLINK "Introduction SPSS.pdf" Introduction SPSS.pdf
Ou encore dans
 HYPERLINK "SPSS Handbook.doc" SPSS Handbook.doc
Ou bien dans le document de SPSS Inc :
 HYPERLINK "SPSS Brief Guide 13.0.pdf" SPSS Brief Guide 13.0.pdf
Il y aégalement un document récent qui traite par ailleurs des possibilités de programmation dans SPSS est
 HYPERLINK "Spss For Dummies Apr 2007 Bbl.pdf" Spss For Dummies Apr 2007 Bbl.pdf

II) Premières analyses
Compte tenu de la grande importance qu’occupe la statistique descriptive comme première étape dans toute démarche de traitement et d’analyse de données statistiques, il n’est pas inutile de rappeler ici deux notions très utiles dans l’analyse des variables une à une : les histogrammes et les boîtes à moustaches. Mais pour une présentation plus complète, un certain nombre de documents sont présentés par la suite à travers des liens hypertextes. Enfin il est très intéressant pour la pratique sur SPSS de consulter les chapitres 14 et 15 du livre de référence :
 HYPERLINK "Spss Base User's Guide 14.0.pdf" Spss Base User's Guide 14.0.pdf
Ou encore de le se référer aux documents très complets :
 HYPERLINK "SPSS book.pdf" SPSS book.pdf
et  HYPERLINK "A Handbook Of Statistical Analyses Using Spss - Excellent !!!.pdf" A Handbook Of Statistical Analyses Using Spss - Excellent !!!.pdf

La statistique descriptive permet, à l’aide de tableaux et graphiques, de visualiser les variables étudiée, d’abord une par une puis certains tableaux et graphiques permettent de faire l’étude simultanée de deux variables.
Par ailleurs des indicateurs numériques comme la moyenne, le mode, l’étendue, l’écart-type ou le coefficient de corrélation synthétisent au maximum l’information contenue dans les variables étudiées.
Par ailleurs, un certain nombre de graphiques sont très utiles dans la description des variables et de la manière dont ils sont répartis. Citons plus particulièrement les histogrammes et les diagrammes de Tuckey ou boîtes à moustaches



Les histogrammes
Dans le cas d'une variable continue, on peut construire un  HYPERLINK "javascript:HyperMot('histogramme')" histogramme des effectifs. Si les classes sont de même amplitude, en plaçant en ordonnée les effectifs on obtient des rectangles dont la surface est proportionnelle à l'effectif associé. Le cours st@atnet sur Internet présente dans son chapitre complet sur la statistique descriptive la notion d’histogramme de façon détaillée. On peut consulter ce cours à l’adresse :
 HYPERLINK "http://www.agro-montpellier.fr/cnam-lr/statnet/cours.htm" http://www.agro-montpellier.fr/cnam-lr/statnet/cours.htm
Les boîtes à moustaches :

Un document complet sur cette question est  HYPERLINK "leguen2001b.pdf" leguen2001b.pdf qu’on peut également télécharger du site dédié aux documents pour la statistique:
 HYPERLINK "http://www.wikistat.ca" www.wikistat.ca
Un résumé de ce travail, établi par Mr Lagzouli qui a beaucoup utilisé cet outil dans son travail de thèse en microbiologie soutenu en 2008 à l’Université Ibn Tofail, Kénitra, est très intéressant :  HYPERLINK "boîtes_moustaches.doc" boîtes_moustaches.doc
Présentations et résumés
La statistique descriptive touche tous les aspects de description de présentation et de résumés de l’information contenue dans un ou plusieurs échantillons. Les documents suivants font un exposé complet du sujet :
 HYPERLINK "descriptive.pdf" descriptive.pdf ,
 HYPERLINK "tableaux_graphiques.pdf" tableaux_graphiques.pdf ,
 HYPERLINK "Exercice stat desc serie 1.pdf" Exercice stat desc serie 1.pdf ,
 HYPERLINK "parametres_stat.pdf" parametres_stat.pdf ,
 HYPERLINK "etude deux variables_doc.pdf" etude deux variables_doc.pdf
et  HYPERLINK "Exercice_partie1.pdf" Exercice_partie1.pdf .

La pratique de la statistique descriptive par SPSS est présentée dans
 HYPERLINK "TP_descriptive.pdf" TP_descriptive.pdf et beaucoup de détails peuvent être consultés dans
 HYPERLINK "Spss Base User's Guide 14.0.pdf" Spss Base User's Guide 14.0.pdf


III) Les tests d’hypothèses statistiques

La notion de tests d’hypothèses statistiques est primordiale lorsqu’on veut intégrer les données statistiques dans le processus de prise de décision associée à un calcul de risque d’erreur.
le cours st@atnet sur Internet à l’adresse :
 HYPERLINK "http://www.agro-montpellier.fr/cnam-lr/statnet/cours.htm" http://www.agro-montpellier.fr/cnam-lr/statnet/cours.htm
est tout indiqué pour s’initier aux concepts de base des tests d’hypothèses
Par ailleurs, le document suivant intitulé « aide mémoire »  HYPERLINK "analyse_tests.pdf" analyse_tests.pdf présente l’utilisation des principaux tests par SPSS. Un exemple d’utilisation est sommairement présenté dans
 HYPERLINK "testing%20hypotheses%20using%20SPSS.pdf" testing hypotheses using SPSS.pdf.
Et pour un document complet qui traite par SPSS les tests liés à des modèles statistiques comme l’analyse de la variance, la régression multiple ou l’analyse multivariée, on peut se référer au livre :
 HYPERLINK "SPSS.for.Intermediate.Statistics.Use.and.Interpretation.(2004),.2Ed.kB.pdf" SPSS.for.Intermediate.Statistics.Use.and.Interpretation.(2004),.2Ed.kB.pdf

Les tests non paramétriques sont traités dans :  HYPERLINK "MANN-W.pdf" MANN-W.pdf et dans :  HYPERLINK "methodesnonparametriques.pdf" methodesnonparametriques.pdf

IV) Les méthodes statistiques explicatives : essais de modélisation
régression simple

un exposé de la statistique par SPSS avec un rappel de certains tests d’hypothèses suivi d’un développement de la régression simple par SPSS est  HYPERLINK "200597.techniquesstatistiquespresentation.ppt" 200597.techniquesstatistiquespresentation.ppt

Par ailleurs il est très intéressant de suivre et de bien comprendre le traitement du cas concret de régression simple présenté dans  HYPERLINK "régression_simple_isa.ppt" régression_simple_isa.ppt
Et il ne sera pas inutile de refaire soi même les traitements de cet exemple à partir des données sous EXCEL  HYPERLINK "rgre_tenenhaus.xls" rgre_tenenhaus.xls

régression multiple

C’est la généralisation naturelle de la régression simple au cas où on veut expliquer une variable réponse à partir de plusieurs variables explicatives.
A ce niveau on peut lire des documents plus développés sur la régression dans
 HYPERLINK "Statistics - SPSS - Regression Explained.pdf" Statistics - SPSS - Regression Explained.pdf
Ou encore dans le document de SPSS Inc.
 HYPERLINK "SPSS Regression Models 12.0.pdf" SPSS Regression Models 12.0.pdf
régression logistique
Quand la variable réponse ne prend qu’un petit nombre de valeurs possibles : 2 ou 3 et que les variables explicatives sont continues et donnent lieu naturellement à des prédictions continues, il est indispensable de procéder à la transformation dite logit pour adapter la variable réponse. Le document suivant fait un développement très riche de la méthode :  HYPERLINK "200594.Regressionlogistique(versionfinale).ppt" 200594.Regressionlogistique(versionfinale).ppt

V) Ecarts aux hypothèses du modèle linéaire
Nous rappelons ici les trois situations d’écarts aux hypothèses du modèle linéaire rencontrées lors du séminaire :
l’asymétrie,
les points aberrants,…
et les données non normales
Pour l’asymétrie, le diagnostic de cette situation se fait à partir du coefficient d’asymétrie (skewness en statistique descriptive) ainsi que par le diagramme de Tuckey ou encore par l’histogramme
Le traitement de données à forte asymétrie se fait par transformation de variables comme il est indiqué sur l’exemple pris du cours en ligne sur le modèle linéaire de Marc Bourdeau :  HYPERLINK "BourdeauModeleLineaire\\Transformer.pdf" BourdeauModeleLineaire\Transformer.pdf
Pour les points aberrants, il s’agit ici tout simplement de rappeler l’importance de l’examen minutieux des données comme on peut le voir sur l’exemple de régression :  HYPERLINK "BourdeauModeleLineaire\\Concentration.xls" BourdeauModeleLineaire\Concentration.xls
Et pour les données non normales, comme par exemple les données catégorielles, les données de comptage ou les données binaires
Il y a lieu suivant la situation faire de la modélisation non linéaire, par exemple les modèles linéaires généralisés pour les données de comptage, la régression logistique pour les données binaires, voir par exemple pour la régression logistique :  HYPERLINK "200594.Regressionlogistique(versionfinale).ppt" 200594.Regressionlogistique(versionfinale).ppt ou encore pour les modèles linéaires généralisées :  HYPERLINK "SPSS Regression Models 12.0.pdf" SPSS Regression Models 12.0.pdf.
De façon plus générale on peut voir pour des données catégorielles :  HYPERLINK "99844-Categorical data analysis with SAS and SPSS applications.pdf" 99844-Categorical data analysis with SAS and SPSS applications.pdf ou bien : HYPERLINK "Spss Categories 13.0.pdf" Spss Categories 13.0.pdf qui contiennent diverses applications traitées par SPSS

VI) Les explorations multivariées

Un survol général des méthodes multivariées est présenté dans
 HYPERLINK "Multivariate Data Analysis Using SPSS.ppt" Multivariate Data Analysis Using SPSS.ppt

- L’Analyse en composantes principales

C’est la méthode de base en analyse des données multivariées. Elle consiste à définir un ou deux plans principaux sur lesquels le nuage de points, souvent volumineux et appartenant à un espace mathématique de grande dimension, peut être projeté avec une perte de l’information contenue dans le nuage, minimale. Ces projections sur les plans principaux donnerons des représentations interprétables et exploitables de la configuration du nuage.
Pour l’analyse en composantes principales par SPSS l’article de Dominique Desbois :  HYPERLINK "ACP_SPSS_introduction.pdf" ACP_SPSS_introduction.pdf
illustre très bien les diverses notions. Il est très conseillé de reprendre cette étude de cas très pédagogique. A cet effet on peut utiliser le fichier Excel contenant les données :  HYPERLINK "acp_tomass.xls" acp_tomass.xls. Les sorties obtenues par le traitement de ce jeu de données par l’ACP de SPSS sont présentées dans le fichier de sorties SPSS  HYPERLINK "acp_tomas.spo" acp_tomas.spo

Par ailleurs, la rubrique d’aide intégrée à SPSS est souvent très utile pour bien comprendre certaines procédure. Dans le cas de l’ACP, l’aide propose d’étudier le fichier de données car_sales.sav inclus dans le répertoire Programme Files > SPSS > tutorial > Sample files qui contient par ailleurs plusieurs exemples et études de cas traités par la rubrique d’aide. Nous proposons ici de consulter le fichier de résultats obtenu par cette analyse  HYPERLINK "acp_car_sales.spo" acp_car_sales.spo

les classifications automatiques

Ce sont les méthodes indiquées pour définir des classes de ressemblance dans une population. Elles sont très utilisées en markéting, notamment pour segmenter un marché. Un document qui introduit les méthodes de classification et leur utilisation sous spss est  HYPERLINK "Typologies_spss.pdf" Typologies_spss.pdf
Une étude de cas en classification est :  HYPERLINK "projet_pomme_classif.pdf" projet_pomme_classif.pdf
Enfin le site du professeur Gey propose un certain nombre de ressources pédagogiques sur la classification :
 HYPERLINK "http://www.math-info.univ-paris5.fr/%7Egey/ens.html" http://www.math-info.univ-paris5.fr/%7Egey/ens.html
L’analyse discriminante

Cette méthode d’exploration multivariée est également considérée comme une méthode explicative. Elle consiste à déterminer la combinaison linéaire de variables X1,…,Xk qui soit à même de départager une population . On peut effectuer une analyse discriminante pour confirmer une classification automatique. On obtient ainsi par l’analyse discriminante un modèle de prédiction qui permet d’affecter chaque nouvel individu à une classe. Un article qui introduit l’analyse discriminante et son utilisation sous spss est :  HYPERLINK "guide_discrim_spss.pdf" guide_discrim_spss.pdf . Nous proposons également de consulter l’article sur ce sujet :  HYPERLINK "analyse discriminante.pdf" analyse discriminante.pdf ainsi que le chapitre de Tufféry sur les méthodes prédictives :  HYPERLINK "Data_mining\\5Predictives.pdf" Data_mining\5Predictives.pdf

- L’analyse factorielle des correspondances

C’est l’application de l’Analyse en composantes principales à des données de comptages présentées sous formes de tableau croisé. Cette application se fait par le choix d’une métrique convenable qui sera à la base des calculs des coordonnées de chaque point du nuage et de la détermination des facteurs et plans principaux. Le document qui suit présente parfaitement le sujet :  HYPERLINK "spss_afc_site1.doc" spss_afc_site1.doc
Ce document est extrait du site suivant qui de plus établit des liens utiles :  HYPERLINK "http://www.mapageweb.umontreal.ca/durandc/Enseignement/MethodesQuantitatives/corresp1.htm" http://www.mapageweb.umontreal.ca/durandc/Enseignement/MethodesQuantitatives/corresp1.htm

Par ailleurs, à l’instar de l’ACP, pour l’AFC aussi, l’article de Dominique Desbois  HYPERLINK "spss_afc_introd.pdf" spss_afc_introd.pdf est très clair et traite particulièrement de l’utilisation de la méthode par SPSS.

Il est également intéressant de lire sur l’acp et l’afc dans la partie consacrée aux méthodes factorielles de Tufféry :  HYPERLINK "Data_mining\\7Factorielle.pdf" Data_mining\7Factorielle.pdf

VII) Les développements

le traitement des cartes géographiques

Le traitement des cartes géographiques dans les versions étudiées de SPSS reste très limité. Une présentation de ces possibilités se trouve dans le chapitre 12 de
 HYPERLINK "Spss For Dummies Apr 2007 Bbl.pdf" Spss For Dummies Apr 2007 Bbl.pdf
On s’aperçoit donc qu’un certains nombre d’outils complémentaires doivent être intégrés à SPSS, notamment GEOSET MANAGER pour une meilleure exploitation des cartes géographiques. Un autre document plus complet sur les Maps de SPSS est :  HYPERLINK "Maps10.0.pdf" Maps10.0.pdf

Par ailleurs, la modélisation statistique des données spatiales est pour le moment absente de SPSS. Cette branche qui trouve ses principales applications en géologie (géostatistique), mais aussi en agronomie et dans les problèmes de l’environnement en général, traite de la modélisation de la variabilité spatiale de variables régionalisées (où les coordonnées dans l’espace sont prises en compte dans l’analyse).
Un document qui présente ce sujet est  HYPERLINK "PolyGeostatistique.pdf" PolyGeostatistique.pdf ; par contre pour le traitement informatique de données spatiales on peut avoir des logiciels libres à l’adresse :  HYPERLINK "http://www.ai-geostats.org/index.php?id=freeware" http://www.ai-geostats.org/index.php?id=freeware

Le data mining et le texte minig
Appelé aussi « fouille des données », le data mining s’est développé pour répondre au foisonnement des méga bases de données qui se sont constituées par accumulation de données dans une multitude d’institutions. Une présentation succinte se trouve dans  HYPERLINK "Data Mining Introduction.doc" Data Mining Introduction.doc.
Le data mining intègre la globalité des méthodes de traitement et d’exploration, comme en témoigne le dossier « data mining » ci-joint pris de l’adresse :  HYPERLINK "http://data.mining.free.fr/" http://data.mining.free.fr/ .
Un document de synthèse sur la question est pris du site de Philippe Besse :  HYPERLINK "Explo_stat.pdf" Explo_stat.pdf
Ces techniques de data mining se sont par la suite développées aux variables qui traitent d’objets de façon plus générale au lieu de simples variables réelles uni ou multidimensionnelles. Ainsi il est possible de traiter des chaînes de caractères dans des textes, voire de grands ensembles de textes, ces le texte mining. Il trouve de nombreuses applications dans le traitement de tous types de textes (manuscrits, textes religieux sacrés … Le document suivant présente l’importance de l’exploration de données textuelles :  HYPERLINK "textemining.doc" textemining.doc et une application en biologie de modélisation de chaînes de caractères génétiques est prise du site de Philippe Besse  HYPERLINK "Stat_biopuces.pdf" Stat_biopuces.pdf

L’apprentissage statistique
L’apprentissage statistique s’intéresse aux bases de données composées de n couples, souvent appelés couples entrée sortie. Le but d’un algorithme d’apprentissage
statistique est de proposer pour toute nouvelle entrée une prédiction de la sortie
associée `a cette entrée.
Des documents de synthèse qui présentent bien le sujet sont pris du site de Philippe Besse:  HYPERLINK "Appren_stat.pdf" Appren_stat.pdf et de l’école des ponts et chaussées de Paris  HYPERLINK "Cours_Stat_ponts.pdf" Cours_Stat_ponts.pdf

Conclusion :

Le magazine de la compagnie SPSS inc pour le suivi de l’actualité sur le logiciel :  HYPERLINK "spss_magazine.pdf" spss_magazine.pdf