L'examen préliminaire des données vise à écarter les données qui ...
1- Transformation de Laplace (applications aux équations différentielles) ,
transformation. de Fourier. 2- Produit ... 4- Transformée en Z.. 5- Fonctions ...
Méthode d'évaluation (contrôle continu, examen, autres): CC, E. Matériels,
logiciels, salles ...
Part of the document
L'examen préliminaire des données vise à écarter les données qui, selon les
indications trouvées, n'appartiendraient pas à la population étudiée
(valeurs extrêmes). Il vise aussi à identifier quelles mesures ne semblent
pas exprimées de façon qui reflète bien les grandeurs sous-jacentes et, si
possible, corriger leurs échelles de mesure. En pratique, ce dernier
objectif consiste à réduire, par des transformations adéquates, l'asymétrie
des distributions dont le coefficient d'asymétrie semble différer
significativement de 0 dans la population. Un coefficient d'aplatissement
anormal sera généralement ignoré parce que, d'une part, les transformations
pour corriger cela sont souvent peu efficaces et que, d'autre part, l'effet
d'un aplatissement anormal sur la normalité de la distribution des moyennes
échantillonales est beaucoup moindre que celui d'une asymétrie, Ces deux opérations, écarter les cas avec des valeurs extrêmes et
réduire les asymétries marquées, doivent être menées simultanément parce
que des valeurs extrêmes peuvent faire paraître la distribution faussement
asymétrique tandis que des distributions authentiquement asymétriques
contiennent typiquement des cas dont la cote z suggère à tort qu'ils
n'appartiendraient pas à la distribution. Correction des asymétries fortes En pratique, on commence par examiner l'asymétrie des variables. Dans
la commande Analyze -> Descriptive statistics -> Explore, on entre les
variables dans la case 'Dependent list'. Si les données proviennent de
groupes où on suspecte des différences importantes (au moins 1 écart type)
entre les moyennes des groupes, surtout si les groupes sont de tailles
inégales (ce qui créerait une impression d'asymétrie), on peut entrer la
variable définissant l'appartenance aux groupes dans 'Factor list'. En ce
cas, on cherchera une transformation qui rende l'asymétrie acceptable
simultanément dans chacun des groupes. Par le bouton 'Plots...' on va
enlever le crochet à côté de 'Stem-and-leaf' et on en met un à côté de
Histogram. On peut aussi choisir 'none' pour Boxplot, si on n'en fait pas
habituellement usage. Après avoir fait exécuter la commande Explore, on examine le
coefficient d'asymétrie de chacune des variables. A droite de ce
coefficient, on trouve son erreur type (qui ne dépend que de la taille de
l'échantillon). En doublant cette erreur type, on obtient la valeur
critique au-delà de laquelle le coefficient d'asymétrie a une cote z qui
dépasse 2.0 en valeur absolue (ce 2.0 est un arrondissement de la valeur
critique de 1.96 délimitant le 95% central d'une distribution normale). On
note quelles variables ont un coefficient d'asymétrie dont la valeur
absolue dépasse le double de son erreur type (ne pas confondre avec
l'erreur type de la moyenne donnée plus haut pour chaque variable) et on en
note le signe (un coefficient négatif indique un étirement à gauche, ce qui
demandera un soin particulier). On doit ensuite aller examiner les
histogrammes des variables identifiées comme significativement
asymétriques. C'est ici qu'on se fait une idée si l'asymétrie est plutôt
un effet de valeurs extrêmes n'appartenant pas à la distribution. En
général, si la distribution est authentiquement asymétrique, on notera un
accroissement assez régulier de la distance entre les scores, lequel est
beaucoup plus marqué d'un des côtés de la distribution. Si on décide qu'il
y a des valeurs extrêmes, on exclut le cas et on fait réévaluer l'asymétrie
de la variable. Il peut arriver qu'une variable x soit bien normalisée par une
transformation inverse xt=1/x ou xt=1/(x+k) où k est une constante
appropriée positive ou négative. Ce serait les cas, entre autre, si la
transformation produisait une vitesse à partir d'une durée. Le plus
souvent, toutefois, on utilisera la racine carrée ou le logarithme de la
variable à transformer à laquelle on devra toutefois souvent ajouter une
constante appropriée (positive ou négative). Il n'est pas assuré qu'on
puisse toujours trouver une transformation qui ramène le coefficient
d'asymétrie sous deux fois son erreur type en valeur absolue. Si on le
peut, toutefois, on appliquera une transformation qui rende le coefficient
d'asymétrie (en valeur absolue) en dessous de 1.0 erreur type. Le
principe, c'est que si on transforme, autant ramener l'asymétrie
raisonnablement proche de 0. On évitera toutefois les transformations
exagérées qui, pour ramener le coefficient d'asymétrie arbitrairement
proche de 0, mènent à l'utilisation d'une constante gênante à rapporter
(e.g., xt=LG10(x+0.324323456), alors que LG10(x+.5) ou LG10(x+1) serait
aussi acceptable). Pour une variable étirée à droite (coefficient d'asymétrie positif),
la transformation typique sera xt=SQRT(x+k) ou xt=LG10(x+k). Dans le cas
de la racine carrée, la constante k doit assurer que x+k est non négatif
pour chacun des sujets (et tous les autres sujets éventuels à qui la
transformation pourrait être appliquée, si on doit développer une équation
de prédiction). Si la plus petite valeur observée est -12, k doit être au
moins +12 pour éviter de prendre la racine carrée d'un nombre négatif.
Pour le logarithme, la constante k doit rendre la plus petite valeur
observée plus grande que zéro. Si la plus petite valeur est -12, on
ajoutera, par exemple, 12.5 ou 13 à x. Notez qu'une constante est aussi
souvent requise même lorsque toutes les valeurs observées sont positives;
souvent, en ce cas, k sera une constante négative. La transformation logarithmique est particulièrement flexible pour
réduire l'asymétrie, par le choix approprié de la constante k. De petites
variations qui font passer la plus petite valeur, par exemple, de .1 à .001
après application de la constante k ne changent presque pas le logarithme
des plus grandes valeurs, mais fait passer LG10(x+k) pour cette valeur
minimum de -1 à -3, étirant ainsi sélectivement le côté gauche de la
distribution. On peut fonctionner par essai et erreurs, en notant quel
type de changement de k améliore le coefficient d'asymétrie. Pour une variable étirée à gauche, la transformation typique
commencera par la forme SQRT(k-x) ou LG10(k-x). Ces transformations
peuvent être vues comme SQRT(-x+k) et LG10(-x+k), ce qui ressemble
davantage à la transformation pour les variables étirées à droite, sauf que
x est précédé du signe moins, ce qui inverse la distribution pour la rendre
étirée à droite plutôt qu'à gauche. C'est, ici, la plus grande valeur de x
qui déterminera le choix de la constante k, puisque c'est à partir de la
plus grande valeur que k-x sera le plus petit. Notez que (k-x) ne peut
être négatif pour SQRT et doit être positif pour LG10. Plus on approchera
la constante k du plus grand x, plus on étirera ce côté de la distribution. L'inversion apportée par le signe moins devant le nom de la variable à
transformer fait toutefois que le plus grand score est devenu le plus
petit, ce dont il faudrait se souvenir lors de l'interprétation de tout
résultat utilisant cette variable transformée. Pour éviter des erreurs
ultérieures, on pourrait donner à la variable transformée un nom qui
reflète l'inversion. Par exemple, une variable 'erreurs' qui serait étirée
à gauche pourrait devenir, après transformation, 'succès'. Toutefois, cela
n'est pas toujours commode. Une solution intéressante est de rétablir la
polarité originale en ajoutant un moins devant la transformation. Ceci
rend toutefois la plupart des scores négatifs, ce qui est souvent peu
convivial. On corrige ceci en ajoutant une autre constante j. Ainsi, la
forme générale de la transformation pour une variable x étirée à gauche est
xt=j-SQRT(k-x) ou xt=j-LG10(k-x). L'ajout de la constante j ne sert qu'à ramener tous les scores
transformés à des valeurs positives. Cela simplifie habituellement la
réflexion basée sur les variables transformées, car on sait sans hésitation
laquelle de deux valeurs positives est la plus grande, alors qu'il faut un
peu de réflexion devant, par exemple, -15 et -48 pour déterminer que la
première valeur est plus grande que l'autre. Pour que le plus petit score
transformé soit au moins 0, on part du plus petit score original, on
applique la transformation sans la constante j et le signe moins qui suit,
ce qui nous donne la plus petite valeur que peut prendre j pour que
l'expression entière ne donne que des scores non négatifs. Par exemple, si
la variable est étirée à gauche avec un minimum de 45 et un maximum de 98,
la transformation initiale qui produit un coefficient d'asymétrie
acceptable pourrait être LG10(98.5-x); en entrant la valeur de 45 dans
cette formule, on obtient 1.728, qui devient -1.728 lorsqu'on met un -
devant LG10. On peut alors fixer j à 2 pour ramener cette valeur en
positif, ce qui donne xt=2-LG10(98.5-x). On a ainsi corrigé l'asymétrie de
la distribution sans en changer la direction (par le biais de deux
inversions) et avec des scores non négatifs pour en faciliter la gestion. Autres considérations Il arrive qu'une transformation qui ramène le coefficient d'asymétries
entre - et + un écart type nous laisse avec asymétrie de direction opposée
à l'asymétrie initiale. Faut-il s'en émouvoir ? Précisons d'abord que je
recommande de ne pas faire de correction (de type Bonferroni) pour
éventuellement déclarer asymétrique, à partir de l'échantillon disponible,
la distribution dans la population. En fait, on ne pose nullement la
question y a-t-il asymétrie quelque part. On pose la question d'asymétrie
spécifiquement pour chacune des échelles de mesures (i.e. des variables).
Je distingue deux situations. Celles où la distribution dans la population
est nettement asymétrique. En ce cas, on doit sans hésitation transformer
l'échelle de mesure et il n'importe pas que la légère tendance observée
pour la variable transformée soit positive ou négative. Si toutefois
l'asymétrie, bien que significative à p