Formalisation de l'ACP

L'ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) ..... L'examen des
corrélations entre les variables initiales et les composantes principales permet ...

Part of the document


L'ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Un exemple élémentaire On considère la population constituée par 17 pays (ou individus) sur
lesquels on a relevé les valeurs de deux caractères: l'espérance de vie
(EVI), et le taux d'analphabétisme (ANA) en 1970. Le graphique 1 donne la représentation de ces données dans un diagramme
EVIxANA. On remarque que l'ensemble des points figurant les pays (ou nuage des
individus) présente une direction privilégiée, approximativement tracée sur
le graphique. On peut songer à faire un nouveau graphique dans lequel cette direction
serait l'un des axes de coordonnées, le second étant naturellement
perpendiculaire. Par commodité, on place l'origine au centre de gravité du
nuage. A quelques conventions supplémentaires non explicitées pour
l'instant près, c'est là l'idée de l'ACP. On obtient le graphique 2. On y voit les pays s'égrener suivant l'axe 1,
des plus développés aux plus arriérés. Cet axe peut s'interpréter comme
l'axe du progrès. L'éloignement selon l'axe 2, transversal, note au
contraire un développement différent: d'un côté l'Espagne et le Maroc, où
l'alphabétisation est en retard sur l'espérance de vie par rapport au
comportement général, de l'autre côté l'Inde et la Thaïlande, en situation
inverse. Exemple: espérance de vie x taux d'analphabétisme en 1970 EVI Pays
EVI ANA
I
I Algérie
53.20 52.50
I Maroc
52.90 78.60
I Inde
49.5 40.00
I Iran
51.0 65.50
I Israël
71.00 12.80
I Japon
73.30 2.00
I
Thaïlande 58.00 18.00
I Brésil
61.40 33.00
I S JF I GB Espagne Turquie
56.90 44.00
I USA Israël Mexique
63.20 24.00
I RFA USA
71.30 1.00
I France
72.60 3.00
I RFA
70.60 1.00
I Italie
72.00 7.00
I Espagne
72.10 19.90
I Mexique Suède
73.30 0.10
I Brésil GB
72.30 10.00
I
I I Thaïlande I Turquie I I I Algérie
Maroc
I I
Iran
I Inde I
+------------------------------------------------------------------
-------------------( ANA REPRESENTATION PLAN 1x2 AXE 1: HORIZONTAL AXE 2: VERTICAL
+-----------------------------------------------------------------
-----------+--------------------------------------------+
Maroc
+ +
+
+ +
+
+ +
+
+ Espagne +
+
+ +
+
+ +
+ Iran
+ Isr. GB. +
+
+ Ita. Fr.Japon
+---------------------- Algérie ------ Turquie ---------------
Brésil -------+------------------------------------------Sué
+
Mexique USA +
+
+ RFA +
+
+ +
+
+ +
+
+ +
+
+ +
+ Inde
Thaïlande + +
+-----------------------------------------------------------------
-----------+--------------------------------------------+ Tableaux de données - Notations L'ACP traite des tableaux rectangulaires donnant les valeurs d'un ensemble
de caractères quantitatifs relevés sur un ensemble d'individus. Dans l'exemple préliminaire, les individus étaient les 17 pays retenus, les
caractères, au nombre de deux, l'espérance de vie et le taux
d'analphabétisme. L'usage dominant - que nous adoptons ici - est de placer les individus en
ligne, et les caractères, ou variables, en colonne. Soit X un tableau de données, notons I l'ensemble des individus (lignes),
en nombre n, et J, l'ensemble des variables (colonnes), en nombre p, et xij
est la valeur prise par l'individu i pour le caractère j. La ligne xi. est un vecteur de Rp donnant les valeurs prises par l'individu
i pour les p caractères de J. On parlera indifféremment de ligne xi., de
ligne i ou d'individu i.
| | |j | | |
| | | | | |
| | |. | | |
| | |. | | |
| | |. | | |
| | |. | | |
| | |. | | |
|I |... |xij |... |i |
| | |. | | |
| | |. | | |
| | |. | | |
| | |. | | |
| | |. | | |
| | | | | |
| | |J | | |
La colonne x.j est un vecteur de Rn donnant les valeurs du caractère j
relevées sur les n individus de I. On parlera indifféremment de colonne
x.j, de colonne j, de variable ou de caractère j. Exemples de tableaux de données . Ex.1: I = Ensemble de personnes, J = Ensemble de caractères biologiques
(taille, poids, rythme cardiaque, capacité thoracique, etc.). . Ex.2: I = Ensemble d'étudiants, J = Ensemble de matières, xij étant la
note obtenue par l'étudiant i dans la matière j. . Ex.3: I = Ensemble de pays, J = Ensemble de postes de dépenses publiques
(éducation, police, culture, etc.), xij étant la dépense du pays i pour
le poste j en 1988. . Ex.4: I = J = Ensemble de pays, xij étant le total des exportations de i
vers j en 1912.
Dans certains cas, le choix entre ce qui sera l'ensemble des individus et
celui des variables peut sembler indifférent (Ex.4), il faut toutefois le
préciser clairement car, en ACP, les individus et les variables ne sont pas
traités de manière équivalente. On appelle nuage (des individus), l'ensemble des lignes i considérées comme
points de l'espace vectoriel Rp. On note que la coordonnée de l'individu i
sur l'axe canonique j de Rp est la valeur xij prise par le caractère j pour
cet individu; en ce sens les axes canoniques correspondent aux variables. Principes de l'ACP L'idée de l'ACP est de déterminer un nouveau repère de Rp associé de
manière naturelle à la structure du nuage considéré, de façon à pouvoir l'y
examiner plus commodément. Pour s'affranchir des effets d'échelle dus à l'hétérogénéité éventuelle des
variables, ces dernières sont en général normalisées, c'est à dire que
chaque colonne est divisée par son écart-type; toutes sont dès lors
exprimées dans la même échelle standard. D'autre part, l'origine est placée au centre de gravité du nuage. C'est le nuage ainsi transformé qui est en fait considéré; l'utilisateur
n'a cependant pas à se préoccuper de ces transformations préalables, sauf
demande contraire elles sont exécutées automatiquement par les logiciels
d'ACP.
Directions principales - plans principaux - représentation des individus Le nuage présente généralement des directions d'allongement privilégiées,
celle d'allongement maximal D1 est dite première direction principale (du
nuage), la suivante D2 parmi toutes celles perpendiculaires à D1 est la
seconde direction principale, la suivante D3 parmi toutes celles
perpendiculaires à D1 et D2 est la troisième direction principale, etc. On choisit un vecteur unitaire uk sur chaque direction Dk (le choix du sens
est libre et décidé arbitrairement par le logiciel utilisé) et on obtient
une base orthonormée de Rp, c'est la base principale du nuage.
+-------------------------------------------------+-------------------------
------------------------------+
I | * * *
I
I | * D1 * *
I
I * | * * *
I
I * | * * *
I
I-----------------------------------------+---------------------------------
-------------I
I * * * | G * * *
I
I * * * | * *
I
I * * * *