L'examen préliminaire des données vise à écarter les données qui ...

1- Transformation de Laplace (applications aux équations différentielles) , transformation. de Fourier. 2- Produit ... 4- Transformée en Z.. 5- Fonctions ... Méthode d'évaluation (contrôle continu, examen, autres): CC, E. Matériels, logiciels, salles ...


un extrait du document



L'examen préliminaire des données vise à écarter les données qui, selon les indications trouvées, n'appartiendraient pas à la population étudiée (valeurs extrêmes). Il vise aussi à identifier quelles mesures ne semblent pas exprimées de façon qui reflète bien les grandeurs sous-jacentes et, si possible, corriger leurs échelles de mesure. En pratique, ce dernier objectif consiste à réduire, par des transformations adéquates, l'asymétrie des distributions dont le coefficient d'asymétrie semble différer significativement de 0 dans la population. Un coefficient d'aplatissement anormal sera généralement ignoré parce que, d'une part, les transformations pour corriger cela sont souvent peu efficaces et que, d'autre part, l'effet d'un aplatissement anormal sur la normalité de la distribution des moyennes échantillonales est beaucoup moindre que celui d'une asymétrie,
Ces deux opérations, écarter les cas avec des valeurs extrêmes et réduire les asymétries marquées, doivent être menées simultanément parce que des valeurs extrêmes peuvent faire paraître la distribution faussement asymétrique tandis que des distributions authentiquement asymétriques contiennent typiquement des cas dont la cote z suggère à tort qu'ils n'appartiendraient pas à la distribution.
Correction des asymétries fortes
En pratique, on commence par examiner l'asymétrie des variables. Dans la commande Analyze -> Descriptive statistics -> Explore, on entre les variables dans la case 'Dependent list'. Si les données proviennent de groupes où on suspecte des différences importantes (au moins 1 écart type) entre les moyennes des groupes, surtout si les groupes sont de tailles inégales (ce qui créerait une impression d'asymétrie), on peut entrer la variable définissant l'appartenance aux groupes dans 'Factor list'. En ce cas, on cherchera une transformation qui rende l'asymétrie acceptable simultanément dans chacun des groupes. Par le bouton 'Plots…' on va enlever le crochet à côté de 'Stem-and-leaf' et on en met un à côté de Histogram. On peut aussi choisir 'none' pour Boxplot, si on n'en fait pas habituellement usage.
Après avoir fait exécuter la commande Explore, on examine le coefficient d'asymétrie de chacune des variables. A droite de ce coefficient, on trouve son erreur type (qui ne dépend que de la taille de l'échantillon). En doublant cette erreur type, on obtient la valeur critique au-delà de laquelle le coefficient d'asymétrie a une cote z qui dépasse 2.0 en valeur absolue (ce 2.0 est un arrondissement de la valeur critique de 1.96 délimitant le 95% central d'une distribution normale). On note quelles variables ont un coefficient d'asymétrie dont la valeur absolue dépasse le double de son erreur type (ne pas confondre avec l'erreur type de la moyenne donnée plus haut pour chaque variable) et on en note le signe (un coefficient négatif indique un étirement à gauche, ce qui demandera un soin particulier). On doit ensuite aller examiner les histogrammes des variables identifiées comme significativement asymétriques. C'est ici qu'on se fait une idée si l'asymétrie est plutôt un effet de valeurs extrêmes n'appartenant pas à la distribution. En général, si la distribution est authentiquement asymétrique, on notera un accroissement assez régulier de la distance entre les scores, lequel est beaucoup plus marqué d'un des côtés de la distribution. Si on décide qu'il y a des valeurs extrêmes, on exclut le cas et on fait réévaluer l'asymétrie de la variable.
Il peut arriver qu'une variable x soit bien normalisée par une transformation inverse xt=1/x ou xt=1/(x+k) où k est une constante appropriée positive ou négative. Ce serait les cas, entre autre, si la transformation produisait une vitesse à partir d'une durée. Le plus souvent, toutefois, on utilisera la racine carrée ou le logarithme de la variable à transformer à laquelle on devra toutefois souvent ajouter une constante appropriée (positive ou négative). Il n'est pas assuré qu'on puisse toujours trouver une transformation qui ramène le coefficient d'asymétrie sous deux fois son erreur type en valeur absolue. Si on le peut, toutefois, on appliquera une transformation qui rende le coefficient d'asymétrie (en valeur absolue) en dessous de 1.0 erreur type. Le principe, c'est que si on transforme, autant ramener l'asymétrie raisonnablement proche de 0. On évitera toutefois les transformations exagérées qui, pour ramener le coefficient d'asymétrie arbitrairement proche de 0, mènent à l'utilisation d'une constante gênante à rapporter (e.g., xt=LG10(x+0.324323456), alors que LG10(x+.5) ou LG10(x+1) serait aussi acceptable).
Pour une variable étirée à droite (coefficient d'asymétrie positif), la transformation typique sera xt=SQRT(x+k) ou xt=LG10(x+k). Dans le cas de la racine carrée, la constante k doit assurer que x+k est non négatif pour chacun des sujets (et tous les autres sujets éventuels à qui la transformation pourrait être appliquée, si on doit développer une équation de prédiction). Si la plus petite valeur observée est -12, k doit être au moins +12 pour éviter de prendre la racine carrée d'un nombre négatif. Pour le logarithme, la constante k doit rendre la plus petite valeur observée plus grande que zéro. Si la plus petite valeur est -12, on ajoutera, par exemple, 12.5 ou 13 à x. Notez qu'une constante est aussi souvent requise même lorsque toutes les valeurs observées sont positives; souvent, en ce cas, k sera une constante négative.
La transformation logarithmique est particulièrement flexible pour réduire l'asymétrie, par le choix approprié de la constante k. De petites variations qui font passer la plus petite valeur, par exemple, de .1 à .001 après application de la constante k ne changent presque pas le logarithme des plus grandes valeurs, mais fait passer LG10(x+k) pour cette valeur minimum de -1 à -3, étirant ainsi sélectivement le côté gauche de la distribution. On peut fonctionner par essai et erreurs, en notant quel type de changement de k améliore le coefficient d'asymétrie.
Pour une variable étirée à gauche, la transformation typique commencera par la forme SQRT(k-x) ou LG10(k-x). Ces transformations peuvent être vues comme SQRT(-x+k) et LG10(-x+k), ce qui ressemble davantage à la transformation pour les variables étirées à droite, sauf que x est précédé du signe moins, ce qui inverse la distribution pour la rendre étirée à droite plutôt qu'à gauche. C'est, ici, la plus grande valeur de x qui déterminera le choix de la constante k, puisque c'est à partir de la plus grande valeur que k-x sera le plus petit. Notez que (k-x) ne peut être négatif pour SQRT et doit être positif pour LG10. Plus on approchera la constante k du plus grand x, plus on étirera ce côté de la distribution.
L'inversion apportée par le signe moins devant le nom de la variable à transformer fait toutefois que le plus grand score est devenu le plus petit, ce dont il faudrait se souvenir lors de l'interprétation de tout résultat utilisant cette variable transformée. Pour éviter des erreurs ultérieures, on pourrait donner à la variable transformée un nom qui reflète l'inversion. Par exemple, une variable 'erreurs' qui serait étirée à gauche pourrait devenir, après transformation, 'succès'. Toutefois, cela n'est pas toujours commode. Une solution intéressante est de rétablir la polarité originale en ajoutant un moins devant la transformation. Ceci rend toutefois la plupart des scores négatifs, ce qui est souvent peu convivial. On corrige ceci en ajoutant une autre constante j. Ainsi, la forme générale de la transformation pour une variable x étirée à gauche est xt=j-SQRT(k-x) ou xt=j-LG10(k-x).
L'ajout de la constante j ne sert qu'à ramener tous les scores transformés à des valeurs positives. Cela simplifie habituellement la réflexion basée sur les variables transformées, car on sait sans hésitation laquelle de deux valeurs positives est la plus grande, alors qu'il faut un peu de réflexion devant, par exemple, -15 et -48 pour déterminer que la première valeur est plus grande que l'autre. Pour que le plus petit score transformé soit au moins 0, on part du plus petit score original, on applique la transformation sans la constante j et le signe moins qui suit, ce qui nous donne la plus petite valeur que peut prendre j pour que l'expression entière ne donne que des scores non négatifs. Par exemple, si la variable est étirée à gauche avec un minimum de 45 et un maximum de 98, la transformation initiale qui produit un coefficient d'asymétrie acceptable pourrait être LG10(98.5-x); en entrant la valeur de 45 dans cette formule, on obtient 1.728, qui devient -1.728 lorsqu’on met un – devant LG10. On peut alors fixer j à 2 pour ramener cette valeur en positif, ce qui donne xt=2-LG10(98.5-x). On a ainsi corrigé l'asymétrie de la distribution sans en changer la direction (par le biais de deux inversions) et avec des scores non négatifs pour en faciliter la gestion.
Autres considérations
Il arrive qu’une transformation qui ramène le coefficient d’asymétries entre – et + un écart type nous laisse avec asymétrie de direction opposée à l’asymétrie initiale. Faut-il s’en émouvoir ? Précisons d’abord que je recommande de ne pas faire de correction (de type Bonferroni) pour éventuellement déclarer asymétrique, à partir de l’échantillon disponible, la distribution dans la population. En fait, on ne pose nullement la question y a-t-il asymétrie quelque part. On pose la question d’asymétrie spécifiquement pour chacune des échelles de mesures (i.e. des variables). Je distingue deux situations. Celles où la distribution dans la population est nettement asymétrique. En ce cas, on doit sans hésitation transformer l’échelle de mesure et il n’importe pas que la légère tendance observée pour la variable transformée soit positive ou négative. Si toutefois l’asymétrie, bien que significative à p ‘Macro’ -> ‘Macros…’ et, de là,5