Examen de statistique appliquée - Art and Science Projects

Connaissances élémentaires en analyse mathématique : notions de ... de la notion de composante principale à n dimensions; Régression paramétrique ...


un extrait du document



echniques de représentation de ces bases de données et également d’en calculer une paramétrisation interprétable et utilisable concrètement.

Il doit donc être capable de réaliser une analyse descriptive d'une série statistique bivariée, d'estimer ses paramètres et doit pouvoir les interpréter dans un cadre gestion publique.

Présentation du contenu

Rappels en statistique élémentaire : représentation et paramétrisation de bases de données
Analyse de séries statistiques bivariées
Méthodes de régression linéaires (LSS), exponentielles et logarithmiques conduisant à l’estimation et à l’interprétation des paramètres d'un modèle
Construction de composantes et interprétation de leur paramétrisation
Généralisation de la régression à n dimensions
Généralisation de la notion de composante principale à n dimensions
Régression paramétrique
Introduction à la régression robuste (LMS)

Organisation du travail / attentes vis-à-vis des étudiants :

Cours magistral
Séances d’exercices
Séances d'exercices au labo d’informatique
Mise en place de modèles statistiques et de procédures de résolution de problèmes et de calculs utilisant un tableur

Modalités et critères d’évaluation :

Épreuve écrite comprenant trois types d’évaluation :

Des questions théoriques évaluant le niveau de savoir approprié
Des questions pratiques évaluant la compétence des étudiants à appliquer des techniques de calcul et à critiquer les ordres de grandeur des résultats obtenus
Des questions d’interprétation portant sur des fichiers de bases de données, sur leur représentation, ou encore sur des fichiers de calcul

L’évaluation se fait sur base du contrat de confiance (EPCC) mis en place par le didacticien français André Antibi
De séries de questions types pouvant être légèrement modifiées lors de l’examen sont proposées aux étudiants et reprennent 80% de l’examen

Support(s) de cours et bibliographie :

Notes de cours fournies en support pdf
La statistique par l’analyse, Daniel Justens, éditions du Céfal, 2004, 327 pages, ISBN 287130178-X
Eléments de statistique - JJ Droesbeke - Editions de l'Université de Bruxelles-2001
Fichiers de bases de données en format xls
Présentations powerpoint

Exemples de questions dans le cadre EPCC

Introduire la notion de covariance à partir de la somme de variables aléatoires.

Interpréter le signe de la covariance.

Présenter succinctement la méthode dite « des moindres carrés ». Donner une application de cette méthode. Critiquer cette méthode. Donner une alternative à cette méthode dans le cadre de la statistique robuste

Mettre en équation le problème de régression linéaire simple avec une variable explicative et une constante. Détailler les calculs permettant l’obtention d’une équation introduisant tous les paramètres statistiques usuels. Interpréter le résultat obtenu. Déterminer la puissance explicative du modèle linéaire en termes de variance, en termes d’écarts-types.

Montrer comment on peut passer de la régression linéaire simple à la construction de composantes (dimension 2) dans le plan. Montrer pourquoi il est nécessaire, ici, de présenter deux modèles théoriques. Déterminer la puissance explicative de ce modèle linéaire en termes de variance, en termes d’écarts-types dans le cas d’un coefficient de corrélation positif (resp. négatif).

Montrer comment on peut généraliser la construction de composantes dans un espace à k dimensions (mise en équation, passage au lagrangien, écriture matricielle). Traiter en détails le cas particulier n = 2 par cette méthode.

Montrer comment on peut passer pratiquement de la méthode LSS à la méthode LMS. Expliquer comment on peut construire un algorithme en ce sens en utilisant la méthode des gradients.

Expliquer en quoi la méthode LMS peut conduire à l'élimination de certaines observations. Expliquer aussi pourquoi l'étude des erreurs obtenues par la méthode LSS ne nous permet pas cette élimination.


Le tableau suivant donne l'évolution des taux de décès des femmes de 60 ans en Belgique. Tous les paramètres sont calculés. Que représentent ces paramètres ? Interpréter les valeurs de ces paramètres.


Voici une première représentation graphique de l'évolution des taux :


Expliquer la notion de “droite de régression”. Pouvez-vous justifier son utilisation dans ce cas ? Pourquoi (justifier) ? Interpréter la valeur du coefficient de détermination. Expliquer pourquoi il est indispensable de passer à une représentation logarithmique (dernière colonne du tableau). Que représentent ces logarithmes ? Voici le graphique et l'ajustement linéaire en utilisant les log des taux en fonction de l'instant de mesure :


Interpréter l'équation obtenue. Interpréter le coefficient de détermination. Cette représentation est-elle meilleure que la précédente ? Justifier votre point de vue. Construire un modèle évolutif en interprétant tous nses paramètres.

Le tableau suivant donne l'évolution des taux de décès des hommes et des femmes de 40 ans en Belgique. Tous les paramètres sont calculés. Que représentent ces paramètres ? Interpréter les valeurs de ces paramètres.


Voici une première représentation graphique de l'évolution des taux :


Expliquer la notion de “composante principale”. Pouvez-vous justifier son utilisation dans ce cas ? Interpréter intuitivement la valeur du coefficient de corrélation. Expliquer pourquoi il est indispensable de procéder à un calcul différent de celui de la droite de régression. Comparer les deux droites en construisant votre propre graphique. La régression est calculée et représentée dans le graphique suivant :


Interpréter l'équation obtenue et comparer avec l'équation de la composante. Interpréter le coefficient de détermination en terme de puissance explicative de variance et d'écart-type. Laquelle des représentations a le plus de sens : la régression ou la composante ? Justifier votre point de vue.

Le fichier qui suit donne la statistique du nombre de chômeurs de moins de 25 ans et de plus de 25 ans en Belgique entre 2005 et 2010 (données incomplètes sur l’image)

Chômeurs en BelgiquePériodePlus de 25 ans Moins de 25 ans2005/015908651303222005/025893791266112005/035844281224012005/045731001173522005/055674561121352005/065690281128792005/076207351487292005/086288841572302005/096282321572212005/106121171466812005/115954041365242005/125971411321112006/015934081253262006/025900721227162006/035797991166152006/045742051137192006/055727751107372006/065729421120932006/076195671435652006/086258091499462006/096199161491472006/105876251343392006/115657421226832006/125572741156142007/01560576116566
Quelques paramètres statistiques de ces deux séries :

Moy-25118004,3Moy+25557405,6EcartType-2516428,88EcartType+2539144,88
Et en voici une représentation graphique avec régression linéaire :

 EMBED Excel.Chart.8 \s 

Pouvez-vous justifier la construction d’un modèle par régression linéaire ? Interprétez le coefficient angulaire et le terme indépendant du modèle. Interprétez qualitativement et quantitativement le coefficient de détermination. Pouvez-vous justifier la construction d’un modèle de type « composante » ? Donnez l’équation de la composante principale. Interprétez ce modèle. Comparez les deux modèles et justifier les différences.

Les données suivantes sont relatives aux questions posées lors du dernier rallye mathématique. On voudrait savoir si les réponses aux questions dans différents domaines procèdent de la même nature cognitive. On étudie les séries des réponses aux questions 4, 5 et 6. Le premier tableau donne la matrice des corrélations. Interpréter les valeurs trouvées et son déterminant.



Les deux graphiques suivants représentent le déterminant en fonction de la variable (1  lð)ð.

 EMBED Graphique Microsoft Excel 




 EMBED Graphique Microsoft Excel 
Interpréter ces valeurs en termes de valeurs propres, de poids de variabilité. En déduire le nombre de composantes nécessaires pour traduire l’information contenue dans la base de données. Est-il intéressant de déterminer les coefficients a1, a2 et a3 de la composante principale ? Si c’est le cas, le faire. Tirer des conclusions générales.



Les données suivantes sont relatives aux valeurs des indices luxembourgeois, européen et belge entre 1993 et 1999. On voudrait savoir si ces valeurs sont liées

 EMBED Graphique Microsoft Excel Le premier tableau donne la matrice des corrélations. Interpréter les valeurs trouvées et son déterminant.


Les deux graphiques suivants représentent le déterminant en fonction de la variable 1  lð.
 EMBED Graphique Microsoft Excel 
 EMBED Graphique Microsoft Excel 
Interpréter ces valeurs en termes de valeurs propres, de poids de variabilité. En déduire le nombre de composantes nécessaires pour traduire l’information contenue dans la base de données. Est-il intéressant de déterminer les coefficients a1, a2 et a3 de la composante principale ? Si c’est le cas, le faire. Tirer des conclusions générales.



 EMBED Feuille de calcul Microsoft Excel 

 EMBED Feuille de calcul Microsoft Excel