UN EXEMPLE D'ACP
Les données ont été ventilées en pourcentage par année, la somme des
éléments d'une même ligne vaut 100, de manière à éviter les effets dus à l'
inflation.
Part of the document
DEUX EXEMPLES D'ACP EXEMPLE 1
On étudie les consommations annuelles en 1972, exprimées en francs, de 8
denrées alimentaires (les variables), les individus étant 8 catégories
socio-professionnelles. Les données sont des moyennes par CSP : | |PAO |
|5,32826|4,86454518 |
|545 | |
|0,46372|0,35421382 |
|027 | |
|0,10950|-0,02850672 |
|645 | |
|0,13801|-0,01236062 |
|317 | |
|0,15037|0,13575285 |
|379 | |
|0,01462|0,01117417 |
|094 | |
[pic]
1) Graphes sur le plan factoriel (1,2) [pic]
[pic] 2) Interprétation des axes
L'interprétation des axes factoriels se fait séquentiellement, pour chaque
axe et chaque nuage de points, en regardant les contributions à la
formation des axes. Axe 1 : Variables : On sait que les variables contribuant le plus à la formation de
l'axe 1 sont celles dont les coordonnées sur cet axe sont proches de 1 en
valeur absolue. Pour repérer les contributions significatives, on utilise
le tableau 3 : on compare les valeurs de la colonne Prin1, coordonnées du
premier axe factoriel, à la racine de la contribution moyenne 1/[pic]=35%,
le signe donnant le sens de contribution. On obtient :
|- |+ |
|PAO |RAI |
|LEC |VIA |
|(VIO) |PLP |
| |(PAA) | PAA et VIO sont très proches de la contribution moyenne, on les intègrera
donc dans l'interprétation de l'axe si elles vont dans le sens de
l'interprétation que l'on peut en faire, sans elles.
L'axe 1 oppose les individus consommant du pain ordinaire, des légumes secs
(et éventuellement du vin ordinaire) à ceux qui consomment du raisin, du
vin (éventuellement du pain) plus sophistiqué et des plats préparés.
L'axe 1, et donc la première composante principale, mesure la répartition
entre aliments ordinaires bon marchés et aliments plus recherchés. Toutes les variables sont bien représentées sur l'axe (tableau 5 : la
qualité de représentation est égale à la coordonnée au carré ; ainsi, la
qualité de représentation de la variable PAO est égale à (-0,97²)=0,94 ;
plus simplement, on peut avoir une idée de la qualité de représentation
d'une variable sur un axe en lisant directement le graphique : une variable
bien représentée est proche du bord du cercle des corrélation et à
proximité de l'axe). La première composante principale explique donc
correctement tous les types de consommations alimentaires. Individus : De même, les individus contribuant le plus à la formation de
l'axe 1 sont ceux dont les coordonnées sur cet axe sont les plus élevées en
valeur absolue. Pour repérer les contributions significatives, on utilise
le tableau 4 : on compare les valeurs de la colonne Prin1, coordonnées des
individus, à la racine carrée de la première valeur propre [pic]=2,49, le
signe donnant le sens de contribution. On obtient :
|- |+ |
|AGRI |CSUP |
|SAAG | | Le premier axe met donc en opposition quant à leurs habitudes alimentaires
les agriculteurs et les cadres supérieurs. Les autres catégories socio-professionnelles, assez bien représentées sur
l'axe à l'exception des inactifs (cf. contributions des individus sur l'axe
1), s'échelonnent suivant la hiérarchie habituelle. Elles sont bien
expliquées par l'axe. Conclusion : L'axe 1 reflète donc l'opposition qui existe entre les
catégories socio-professionnelles dans leur alimentation, opposant les CSP
modestes qui consomment des produits basiques aux catégories favorisées qui
consomment des produits plus recherchés. Axe 2 : Variables : Dans le tableau 3, on compare les valeurs de la colonne Prin2 à
35%, le signe donnant le sens de contribution. On obtient : |- |+ |
| |POT |
| |PAA | L'axe 2 est défini par les variables POT et PAA. Compte tenu de la
différence de contribution existant entre ces deux variables, de la
contribution élevée de POT (55%), et de la qualité de représentation
moyenne de PAA, la deuxième composante principale peut être considérée
comme essentiellement liée à la consommation de pommes de terre. Les variables, à l'exception de POT et de PAA (dans une moindre mesure)
sont assez mal représentées sur l'axe (tableau 5). La deuxième composante
principale n'explique donc qu'un aspect très particulier de la consommation
alimentaire. Individus : Pour repérer les individus ayant une contribution
significative, on utilise le tableau 4 : on compare les valeurs de la
colonne Prin2, coordonnées des individus sur l'axe 2, à la racine de la
deuxième valeur propre [pic]=0,94, le signe donnant le sens de
contribution. On obtient : |- |+ |
| |INAC | Le deuxième axe est caractéristique des inactifs (expliquant [pic]=75% de
l'inertie de l'axe).
Les autres catégories socio-professionnelles sont mal représentées sur
l'axe. Conclusion : L'axe 2 reflète donc la particularité des inactifs quant à
leur alimentation, fortement composée de pommes de terre (un retour aux
données d'origine vient confirmer cette conclusion). Synthèse : Ici, il n'y a rien de plus à tirer de cette analyse au vu du graphique (pas
de regroupement particuliers de points, autres qu'à proximité des axes, ce
qui a déjà été analysé). On peut en revanche synthétiser les résultats de
l'analyse dans un tableau C « réduit », tableau contenant l'essentiel (88%)
de l'inertie (i.e. de l'information) totale du tableau d'origine.
CSP C1 C2 AGRI -3.37158 -0.24582
SAAG -3.52171 -0.44740
PRIN 1.47203 0.05851
CSUP 4.35879 0.17611
CMOY 1.71808 -0.85665
EMPL 0.80653 -0.80853
OUVR -0.89910 -0.18304
INAC -0.56304 2.30681 C1=répartition entre aliments ordinaires et aliments plus recherchés
C2=répartition de la consommation de pommes de terre EXEMPLE 2 Le tableau suivant fournit la structure du bilan d'un groupe pétrolier de
1969 à 1984 : |Année |NET |
|DCT |NET |
|EXP |IMM |
|(SUB) | | SUB est très proche de la contribution moyenne, on l'intègrera dans
l'interprétation si elle va dans le sens de celle qui est faite sans elle. L'axe 1 oppose les postes DCT, EXP (dettes à court terme et valeur
d'exploitation élevée) et éventuellement SUB (subventions) aux postes NET
et IMM (capitaux propres élevés et nombre important d'immobilisation). Toutes les variables sont bien représentées sur l'axe excepté LMT ( et VRD
dans une moindre mesure) (tableau 5). La première composante principale
explique donc correctement tous les postes, sauf ces deux derniers. Individus : On utilise le tableau 4 : on compare les valeurs de la colonne
Prin1à la racine de la première valeur propre [pic]=2,11, le signe donnant
le sens de contribution. On obtient :
|- |+ |
|1982 |1969 |
| |1970 |
| |1971 |
| |1972 | Le premier axe met donc en opposition la structure de bilan l'année 1982
aux quatre années précédant le premier choc pétrolier. En fait, il isole
les secondes, les autres coordonnées étant toutes négatives. Sont bien représentées sur l'axe les années 73 74 81 84, en plus des années
contribuant fortement à l'axe. Conclusion : L'axe 1 oppose donc les années 1969 à 1972, marquées par un
poids important dans la structure de leur bilan des postes NET et IMM, et
un poids faible des postes DCT et EXP aux années plus récentes (à
l'exception de 73), qui présentent le profil inverse. Pour illustrer ce
résultat, nous pouvons revenir aux données sources. En nous servant des
indications du tableau 0, nous avons : |Année |NET |DCT |IMM |EXP |
|1969 |17.93 |19.86 |25.45 |5.34 |
|1970 |16.21 |19.11 |26.58 |5.01 |
|1971 |19.01 |17.87 |25.94 |5.40 |
|1972 |18.05 |18.83 |26.05 |5.08 |
|1973 |16.56 |20.36 |23.95 |6.19 |
|1982 |11.75 |25.04 |18.11 |14.71 |
|Moyenne|13.85 |22.37 |21.98 |10.32 |
|Minimum|9.46 |17.87 |17.61 |5.01 |
|maximum|19.01 |25.05 |26.58 |16.67 |
Axe 2 : Variables : Dans le tableau 3, on compare les valeurs de la colonne Prin2 à
35% le signe donnant le sens de contribution. On obtient : |- |+ |
|LMT |INT |
| |VRD | L'axe 2 oppose le poste LMT (endettement à moyen et long terme) aux postes
INT et VRD (créances à court terme et capitaux propres). Les