Examen de statistique appliquée - Art and Science Projects

Connaissances élémentaires en analyse mathématique : notions de ... de la
notion de composante principale à n dimensions; Régression paramétrique ...

Part of the document


Contrat didactique du cours de statistique multivariée Prérequis et articulation avec le cursus : Connaissances élémentaires en analyse mathématique : notions de dérivation
et d'intégration. Connaissances élémentaires en statistique univariée et en
calcul des probabilités : moyenne, variance, fonction de répartition,
distributions usuelles Compétences de formation développées Les compétences sont à placer dans le contexte général de l'appropriation
de la notion de modèle mathématique et de son utilisation pratique en
gestion publique ce qui implique : . L'appropriation du contenu des modèles statistiques de façon à les
utiliser optimalement en gestion publique en toute connaissance de
leur contenu et de leurs hypothèses implicites
. L'acquisition d'une certaine indépendance visant à chercher
éventuellement d'autres modèles mieux appropriés Objectifs de l'activité d'enseignement : Le but est d'amener l'étudiant à poser un problème de gestion de bases de
données publiques et à mettre en place différentes techniques de
représentation de ces bases de données et également d'en calculer une
paramétrisation interprétable et utilisable concrètement. Il doit donc être capable de réaliser une analyse descriptive d'une série
statistique bivariée, d'estimer ses paramètres et doit pouvoir les
interpréter dans un cadre gestion publique. Présentation du contenu . Rappels en statistique élémentaire : représentation et paramétrisation
de bases de données
. Analyse de séries statistiques bivariées
. Méthodes de régression linéaires (LSS), exponentielles et
logarithmiques conduisant à l'estimation et à l'interprétation des
paramètres d'un modèle
. Construction de composantes et interprétation de leur paramétrisation
. Généralisation de la régression à n dimensions
. Généralisation de la notion de composante principale à n dimensions
. Régression paramétrique
. Introduction à la régression robuste (LMS) Organisation du travail / attentes vis-à-vis des étudiants : Cours magistral
Séances d'exercices
Séances d'exercices au labo d'informatique
Mise en place de modèles statistiques et de procédures de résolution de
problèmes et de calculs utilisant un tableur Modalités et critères d'évaluation : Épreuve écrite comprenant trois types d'évaluation : . Des questions théoriques évaluant le niveau de savoir approprié
. Des questions pratiques évaluant la compétence des étudiants à
appliquer des techniques de calcul et à critiquer les ordres de
grandeur des résultats obtenus
. Des questions d'interprétation portant sur des fichiers de bases de
données, sur leur représentation, ou encore sur des fichiers de calcul L'évaluation se fait sur base du contrat de confiance (EPCC) mis en place
par le didacticien français André Antibi
De séries de questions types pouvant être légèrement modifiées lors de
l'examen sont proposées aux étudiants et reprennent 80% de l'examen Support(s) de cours et bibliographie : . Notes de cours fournies en support pdf
. La statistique par l'analyse, Daniel Justens, éditions du Céfal, 2004,
327 pages, ISBN 287130178-X
. Eléments de statistique - JJ Droesbeke - Editions de l'Université de
Bruxelles-2001
. Fichiers de bases de données en format xls
. Présentations powerpoint Exemples de questions dans le cadre EPCC Introduire la notion de covariance à partir de la somme de variables
aléatoires. Interpréter le signe de la covariance. Présenter succinctement la méthode dite « des moindres carrés ». Donner
une application de cette méthode. Critiquer cette méthode. Donner une
alternative à cette méthode dans le cadre de la statistique robuste Mettre en équation le problème de régression linéaire simple avec une
variable explicative et une constante. Détailler les calculs permettant
l'obtention d'une équation introduisant tous les paramètres statistiques
usuels. Interpréter le résultat obtenu. Déterminer la puissance explicative
du modèle linéaire en termes de variance, en termes d'écarts-types. Montrer comment on peut passer de la régression linéaire simple à la
construction de composantes (dimension 2) dans le plan. Montrer pourquoi il
est nécessaire, ici, de présenter deux modèles théoriques. Déterminer la
puissance explicative de ce modèle linéaire en termes de variance, en
termes d'écarts-types dans le cas d'un coefficient de corrélation positif
(resp. négatif). Montrer comment on peut généraliser la construction de composantes dans un
espace à k dimensions (mise en équation, passage au lagrangien, écriture
matricielle). Traiter en détails le cas particulier n = 2 par cette
méthode. Montrer comment on peut passer pratiquement de la méthode LSS à la méthode
LMS. Expliquer comment on peut construire un algorithme en ce sens en
utilisant la méthode des gradients. Expliquer en quoi la méthode LMS peut conduire à l'élimination de certaines
observations. Expliquer aussi pourquoi l'étude des erreurs obtenues par la
méthode LSS ne nous permet pas cette élimination.
Le tableau suivant donne l'évolution des taux de décès des femmes de 60 ans
en Belgique. Tous les paramètres sont calculés. Que représentent ces
paramètres ? Interpréter les valeurs de ces paramètres.
Voici une première représentation graphique de l'évolution des taux :
Expliquer la notion de "droite de régression". Pouvez-vous justifier son
utilisation dans ce cas ? Pourquoi (justifier) ? Interpréter la valeur du
coefficient de détermination. Expliquer pourquoi il est indispensable de
passer à une représentation logarithmique (dernière colonne du tableau).
Que représentent ces logarithmes ? Voici le graphique et l'ajustement
linéaire en utilisant les log des taux en fonction de l'instant de mesure :
Interpréter l'équation obtenue. Interpréter le coefficient de
détermination. Cette représentation est-elle meilleure que la précédente ?
Justifier votre point de vue. Construire un modèle évolutif en interprétant
tous nses paramètres. Le tableau suivant donne l'évolution des taux de décès des hommes et des
femmes de 40 ans en Belgique. Tous les paramètres sont calculés. Que
représentent ces paramètres ? Interpréter les valeurs de ces paramètres.
Voici une première représentation graphique de l'évolution des taux :
Expliquer la notion de "composante principale". Pouvez-vous justifier son
utilisation dans ce cas ? Interpréter intuitivement la valeur du
coefficient de corrélation. Expliquer pourquoi il est indispensable de
procéder à un calcul différent de celui de la droite de régression.
Comparer les deux droites en construisant votre propre graphique. La
régression est calculée et représentée dans le graphique suivant :
Interpréter l'équation obtenue et comparer avec l'équation de la
composante. Interpréter le coefficient de détermination en terme de
puissance explicative de variance et d'écart-type. Laquelle des
représentations a le plus de sens : la régression ou la composante ?
Justifier votre point de vue. Le fichier qui suit donne la statistique du nombre de chômeurs de moins de
25 ans et de plus de 25 ans en Belgique entre 2005 et 2010 (données
incomplètes sur l'image) |Chômeurs en Belgique | | |
|Période |Plus de 25 ans|Moins de 25 ans|
|2005/01 |590865 |130322 |
|2005/02 |589379 |126611 |
|2005/03 |584428 |122401 |
|2005/04 |573100 |117352 |
|2005/05 |567456 |112135 |
|2005/06 |569028 |112879 |
|2005/07 |620735 |148729 |
|2005/08 |628884 |157230 |
|2005/09 |628232 |157221 |
|2005/10 |612117 |146681 |
|2005/11 |595404 |136524 |
|2005/12 |597141 |132111 |
|2006/01 |593408 |125326 |
|2006/02 |590072 |122716 |
|2006/03 |579799 |116615 |
|2006/04 |574205 |113719 |
|2006/05 |572775 |110737 |
|2006/06 |572942 |112093 |
|2006/07 |619567 |143565 |
|2006/08 |625809 |149946 |
|2006/09 |619916 |149147 |
|2006/10 |587625 |134339 |
|2006/11 |565742 |122683 |
|2006/12 |557274 |115614 |
|2007/01 |560576 |116566 | Quelques paramètres statistiques de ces deux séries : |Moy-25 |118004,|
| |3 |
|Moy+25 |557405,|
| |6 |
|EcartType|16428,8|
|-25 |8 |
|EcartType|39144,8|
|+25 |8 | Et en voici une représentation graphique avec régression linéaire : [pic] Pouvez-vous justifier la construction d'un modèle par régression linéaire ?
Interprétez le coefficient angulaire et le terme indépendant du modèle.
Interprétez qualitativement et quantitativement le coefficient de
détermination. Pouvez-vous justifier la construction d'un modèle de type
« composante » ? Donnez l'équation de la composante principale. Interprétez
ce modèle. Comparez les deux modèles et justifier les différences. Les données suivantes sont relatives aux questions posées lors du dernier
rallye mathématique. On voudrait savoir si les réponses aux questions dans
différents domaines procèdent de la même