IV- Interprétation d'une analyse factorielle

En AFC, un test approché a été construit (test de Wishart) qui permet de tester, d'
après la .... l'examen des axes s'effectue séquentiellement, axe par axe. .... cette
particularité, propre à l'ACP sur données centrées réduites s'appelle effet taille.

Part of the document


(deja incorpore dans ch7) IV- Interprétation d'une analyse factorielle
L'analyse présentée précédemment est faite généralement par les logiciels
statistiques. Il s'agit dès lors, à l'aide d'indicateurs, de choisir le
nombre d'axes factoriels à retenir (rappelons que c'est aussi le nombre de
composantes principales retenues pour un tableau individus-variables) de
manière à obtenir un résumé suffisamment précis de l'information contenue
dans le tableau initial, et d'évaluer la qualité de ce résumé. Interpréter
les résultats d'une analyse consiste par ailleurs à donner une
signification à ces nouveaux axes. Afin d'illustrer nos propos, nous interpréterons les résultats d'une
Analyse en Composantes Principales effectuée sur le tableau de données
constitué des 6 variables de délits et des 20 Etats présenté en début de
chapitre. Cette analyse a été effectuée par la procédure PRINCOMP du
logiciel SAS (on verra que le tableau traité en ACP est le tableau des
données centrées et réduites. La matrice S est donc la matrice de
corrélations).
1.Selection du nombre d'axes à retenir Dans l'interprétation des résultats, la première étape concerne en général
le nombre d'axes à retenir. a. Le taux d'inertie La première indication consiste à regarder les taux d'inertie. Le sous-
espace à retenir (défini par les q premiers axes factoriels) devra en
principe avoir un taux d'inertie suffisamment grand. Cependant,
- selon la méthode utilisée, les taux d'inertie, y compris sur les
premiers axes, peuvent par construction être faibles. Tel est le cas
en ACM où la mise sous forme d'un tableau disjonctif des données
conduit à de tels résultats.
- Un taux très élevé sur un axe n'implique pas pour autant que l'axe
présente un quelconque intérêt. Il se peut que le phénomène mis en
évidence soit trivial et de plus masque un élément intéressant qui
apparaîtra sur les axes suivants.
- Il faut tenir compte de la dimension du tableau de données. Un taux
d'inertie de 10% sur un axe ne possède pas la même signification selon
que le tableau comporte 20 ou 100 variables.
b. Critères théoriques
Certains auteurs ont cherché à construire des tests statistiques afin de
déterminer si un axe est ou non significatif. La plupart de ces tests ne
sont valables que pour un tableau admettant un très grand nombre
d'individus. En AFC, un test approché a été construit (test de Wishart) qui
permet de tester, d'après la valeur de la première valeur propre
l'hypothèse d'indépendance entre les lignes et les colonnes du tableau (on
reverra la question ultérieurement)
c. Critères empiriques . Le meilleur critère qui puisse être utilisé en pratique dans la
sélection des axes est empirique et consiste à examiner non pas la
signification statistique d'un axe mais son « interprétabilité » :
peut-on donner une signification claire à l'axe ? . Signalons également parmi les critères empiriques celui du
« coude » : ce test consiste à repérer l'évolution des taux
d'inertie sur les axes. On observe en général des sauts sur les
premiers axes, puis une décroissance régulière des taux d'inertie
des axes à partir d'un certain rang. Les données traitées
contiennent dans ce cas des phénomènes structurels, qui expliquent
précisément les sauts, et du « bruit » qui implique l'allure de
décroissance régulière. . Le scree-test de Catell est une autre méthode de sélection des
axes. Il consiste à repérer un éventuel point d'inflexion dans la
courbe de décroissance des valeurs propres. On calcule les
différences premières entre valeurs propres [pic] (données par
« différence » dans le listing SAS), puis les différences secondes
[pic]. On retient ensuite les axes pour lesquels les différences
secondes sont toutes positives. L'expérience semble cependant
indiquer que cette méthode conduit à une sélection « large » des
axes.
Application à l'exemple : Pour notre exemple, regardons les sorties
fournies par le logiciel SAS :
Eigenvalue Difference Proportion
Cumulative 1 3.48593061 2.06407759 0.5810
0.5810
2 1.42185301 0.94906914 0.2370
0.8180
3 0.47278388 0.17844721 0.0788
0.8968
4 0.29433667 0.07567102 0.0491
0.9458
5 0.21866564 0.11223546 0.0364
0.9823
6 0.10643019 0.0177
1.0000 La première colonne indique le rang de l'axe factoriel considéré (ici, il y
a p= 6 axes factoriels), la deuxième colonne donne les valeurs propres de
la matrice S associées à chaque axe, la troisième colonne donne les
différences entre deux valeurs propres consécutives, la quatrième colonne
donne le taux d'inertie expliquée par l'axe et la dernière le taux
d'inertie cumulé (c'est-à-dire expliqué par le sous-espace constitué par
l'axe et les précédents).
Si l'on trace l'histogramme du pourcentage d'inertie expliqué par chaque
axe, on obtient : [pic]
Par le critère du coude, on observe la décroissance régulière des taux
d'inertie à partir du troisième axe. Il est fort probable que seuls les
deux premiers axes présentent un éventuel intérêt. Selon le critère du scree-test, on est amené à sélectionner 3 axes, d'après
le tableau ci-dessous, mais on sait que ce critère est un peu large.
|[pic] |[pic] |
|2,0640775|1,1150084|
|9 |5 |
|0,9490691|0,7706219|
|4 |3 |
|0,1784472|0,1027761|
|1 |9 |
|0,0756710|-0,036564|
|2 |44 |
|0,1122354| |
|6 | | On serait donc amenés, par les deux critères précédents à sélectionner au
plus trois axes, le troisième axe ne représentant pas forcément un intérêt.
Une analyse attentive des taux d'inertie nous montre qu'on peut n'en
sélectionner que deux :
En effet, le premier axe conserve 58% de l'inertie du nuage. Il est en
conséquence peu probable qu'il soit dû au hasard. En effet, lorsque le
nombre d'axes a été divisé par 6, l'inertie, elle n'a été divisée que par
2. Il existe donc une structuration importante des données qui va se
manifester sur le premier axe.
Le second axe conserve une part importante de l'inertie totale, 24%. La
chute est importante dès le troisième axe qui ne conserve plus que 7% de
l'inertie totale. Ici, on peut décider de ne retenir que les deux premiers
axes. D'une part le premier plan factoriel (constitué des axes 1 et 2)
expliquent 82% de l'inertie du nuage, ce qui peut être un bon compromis :
nous disposons en effet d'un espace factoriel compréhensible par l'?il et
qui ne déforme pas trop le nuage. On peut de plus remarquer que le
pourcentage d'inertie sur l'axe 3 est inférieur au seuil moyen 1/6 (16%).
Si le nuage était l'équivalent d'une sphère de dimension 6 (c'est-à-dire si
toutes les directions de l'espace étaient équivalentes), aucune direction
ne serait privilégiée et le taux moyen serait de 1/6.
Ainsi, nous sélectionnerons les deux premiers axes, soit le premier plan
factoriel, dans notre analyse.
2. Examen des nuages de points
a. Une notion fondamentale : la contribution absolue Définition : Le choix du nuage comportant une part d'arbitraire, on commence par
interpréter l'un ou l'autre (nuage des points-lignes ou nuage des points-
colonnes), la démarche étant identique quel que soit le nuage. Commençons
par l'analyse du nuage des lignes, qui l'on suppose être des individus. On
a vu que l'inertie du nuage projeté sur l'axe de rang k s'écrit : [pic], où
[pic]est la masse de l'individu [pic] et [pic]est la longueur de sa
projection sur l'axe factoriel de rang k. Chaque individu du nuage
participe donc à la formation de l'inertie [pic]. Afin de déterminer le
rôle pris par chaque individu dans la formation de l'axe k, on examine sa
contribution individuelle à l'inertie de l'axe :[pic]. Cette quantité est
appelée contribution (absolue) de l'individu i à l'inertie de l'axe k. Les contributions sont fondamentales et c'est sur leur examen que repose
l'interprétation d'un axe. Notons que l'interprétation directe des
résultats à partir des seules sorties graphiques est erronée dans le cas où
les masses des individus ne sont pas identiques. En effet, les sorties
graphiques des analyses factorielles tracent la longueur des projections
sur les axes, soit les [pic], sans tenir compte des masses ; une analyse
spatiale naïve conduit donc à faire des erreurs (c'est le cas notamment en
AFC où existent des masses implicites). Cas de contributions très fortes : Une contribution absolue très forte (>1/4 sur un des premiers axes
factoriels) doit attirer l'attention ; en particulier, elle peut être due à
une erreur dans les données ou à un élément atypique. Dans le cas où il ne
s'agit pas d'une erreur dans les données et où l'élément est atypique, il
s'agit de savoir si on le garde dans l'analyse. Compte tenu de la
définition de la contribution, l'atypie de l'élément ne peut provenir que
de sa masse ou de sa distance au centre de gravité (la valeur de sa
projection sur l'axe). Si sa distance est en cause, cela signifie que
l'élément se distingue de l'individu moyen par ses valeurs prises sur les
variables. Il faut alors examiner si ces valeurs constituent un cas extrême
ou traduisent un cas différent par nature. Dans ce second cas, s'il s'agit
d'une enquête par sondage, on pourra alors réfléchir à la constitution
d'une strate contenant de tels cas. Si c'est sa masse qui est en cause, le
diagnostic dépend de la méthode utilisée et du procédé de recueil des
données. S'il s'agit d'une enquête par sondage, la masse étant constituée
par le coefficient d'extrapolation, soit l'inverse du taux de sondage, cela
signifie que ce dernier était peut être trop faible dans la strate
correspondante. Utilisa