Statistiques et probabilités au lycée
... induction permet d'arriver à des conclusions par l'examen d'exemples
particuliers. ... Les exemples particuliers sont représentés par un ensemble de
couples ... de re-description est grande, plus la probabilité de pouvoir trouver un
hyperplan ... On considère un couple (X, Y ) de variables aléatoires à valeurs
dans X x Y.
Part of the document
Statistiques et probabilités au lycée « Le loto, c'est un impôt sur les gens qui ne comprennent pas les
statistiques. » (Anonyme)
I - INTRODUCTION
1. Un apprentissage dans la continuité
Quelques éléments de statistique descriptive ont été introduits au
collège, une initiation au calcul des probabilités a été menée en classe
de 3ème depuis la rentrée 2008. Le programme de classe de 2nde s'inscrit
dans la continuité de ce travail pour ce qui est du contenu. Le tableau
synoptique suivant résume l'évolution des connaissances.
| |Classe de 6ème |Classe de 5ème |Classe de 4ème |Classe de 3ème |
|Organisat|Organiser des |Classes, |Moyenne pondérée. |Caractéristiques |
|ion et |données en |effectifs, | |de position : |
|gestion |choisissant un |fréquences. | |médiane, |
|de |mode de |Tableaux de | |quartiles. |
|données |représentation |données : lecture,| |Approche des |
| |adapté. |interprétations, | |caractéristiques |
| |Lire et |élaboration, | |de dispersion : |
| |interpréter des |représentations | |étendue. |
| |informations à |graphiques. | | |
| |partir d'une |Diagrammes, | |Notion de |
| |représentation |histogrammes. | |probabilité. |
| |graphique. | | | |
| |Représentations | | | |
| |usuelles : | | | |
| |tableaux, | | | |
| |diagrammes en | | | |
| |bâtons, | | | |
| |circulaire, ..., | | | |
| |cartésien. | | | |
Le programme de Seconde ne va guère plus loin sur les notions
nouvelles dans ce qui est désormais désigné par « analyse des données »,
en institutionnalisant la connaissance des caractéristiques de position
et de dispersion (moyenne, médiane, quartiles).
Il introduit cependant un nouveau champ de réflexion conceptuelle sur les
données, avec une approche de l'échantillonnage statistique. Cette
approche avait déjà été initiée de façon qualitative avec le programme de
2000, nous allons plus loin dans ce domaine avec la mise en évidence
d'éléments chiffrés de la fluctuation (notion d'intervalle de fluctuation
au seuil de 95%).
Enfin, le programme de 2009, introduit les premiers éléments du calcul
de probabilité, ce qui est une première en classe de seconde ! Le recours
à la simulation d'expériences aléatoires renforce et crédibilise le lien
avec les statistiques, beaucoup plus que dans le programme précédent où
ces simulations étaient souvent négligées dans les pratiques, faute peut-
être de trouver un ancrage suffisant avec les autres domaines étudiés. 2. Regard sur les objectifs du programme de Seconde
Ces objectifs, relativement ambitieux, sont clairement résumés dans le
libellé du programme :
« Objectifs visés par l'enseignement des statistiques et probabilités à
l'occasion de résolutions de problèmes
. dans le cadre de l'analyse de données, rendre les élèves capables :
- de déterminer et interpréter des résumés d'une série statistique ;
- de réaliser la comparaison de deux séries statistiques à l'aide
d'indicateurs de position et de dispersion, ou de la courbe des
fréquences cumulées ;
. dans le cadre de l'échantillonnage :
- faire réfléchir les élèves à la conception et la mise en ?uvre
d'une simulation ;
- sensibiliser les élèves à la fluctuation d'échantillonnage, aux
notions d'intervalle de fluctuation et d'intervalle de confiance et
à l'utilisation qui peut en être faite. »
3. Commentaires
Les objectifs affichés s'articulent autour de la statistique purement
descriptive (ou : analyse des données), qui utilise des outils
mathématiques issus de la géométrie et de l'analyse, et des liens entre
la statistique et les phénomènes aléatoires : l'étude de ces phénomènes
se fonde sur la notion de probabilité, comprise comme une valeur idéale
de fréquence, et dont la théorie explique certains phénomènes constatés
(la fluctuation d'échantillonnage) mais aussi donne un cadre théorique
rigoureux pour, à partir de ces données statistiques, formuler une
prévision ou prendre un décision. Ce deuxième aspect est plus complexe,
car il met l'accent sur l'imbrication entre statistiques et
probabilités ; les statistiques permettent d'accepter ou de réfuter un
modèle théorique, les probabilités expliquent les écarts statistiques
constatés et donnent des garde-fous pour la statistique inférentielle,
c'est-à-dire la statistique de la prévision ou de la décision.
Cette articulation entre statistiques et probabilités n'est pas un
artifice, elle correspond à un cheminement historique et épistémologique
conjoint dans le développement de ces deux disciplines. Dans le bagage
culturel du futur « citoyen », l'enjeu avéré du programme est de donner à
chacun un jugement le plus sain possible sur l'information chiffrée, avec
l'appui d'un « bon sens de l'aléatoire ». C'est un objectif ambitieux,
d'autant plus que la France affiche un triste retard en la matière,
notamment par rapport aux pays anglo-saxons ; le retard est culturel, les
perles journalistiques relatives aux sondages et à leur interprétation,
le flou affiché dans la « confiance » des bulletins météo, en sont
quelques traces visibles ; le retard est également visible dans
l'enseignement où, non seulement on a dressé au fil des années un rideau
de fer entre statistiques et probabilités (les incitations fortes des
différents programmes, et notamment celui de 2000, ont peu infléchi les
pratiques), mais encore on a établi une hiérarchie de fait entre ces deux
disciplines, au détriment des statistiques trop souvent considérées comme
des mathématiques au rabais. Les statistiques restent trop souvent dans
la société un amas de chiffres obscurs que l'on peut manipuler de façon
machiavélique - ce qui n'est pas toujours faux - pour rendre opaque une
vérité ou la déformer. Les citations abondent dans ce sens ; en voici
trois :
« Il y a trois sortes de mensonges : les mensonges, les sacrés mensonges
et les statistiques. »
(Mark Twain)
« La statistique est la première des sciences inexactes. » (Jules de
Goncourt)
« Faites attention, la statistique est toujours la troisième forme du
mensonge. » (Jacques Chirac)
Chacun pourra tester son propre sens de l'aléatoire dans l'exemple qui
suit. On a consigné ci après quatre séries de 100 chiffres 0 ou 1, dont une
seule a été obtenue de façon aléatoire. Il s'agit de déterminer laquelle. |Série 1 | |Série 2 | |Série 3 | |Série 4 |
| | |
|[pic] |68 % |
|[pic] |95% |
|[pic] |99% |
VI - LA STATISTIQUE INFÉRENTIELLE
1. Estimation de paramètres et prévision
a) Position du problème
Il s'agit d'estimer certains paramètres d'une population à partir des
valeurs relevées sur un échantillon statistique. Le cadre des sondages
motive cette problématique : on veut par exemple estimer le
pourcentage de Français qui pensent ceci ou cela en interrogeant
seulement 1000 personnes, ou encore donner le résultat de la
présidentielle à 20 heures à partir de seulement 30000 bulletins
électoraux dépouillés. C'est la théorie de l'échantillonnage (voir
plus haut) qui donne un fondement solide à ces estimations. On se
place toujours dans le cadre d'échantillons aléatoires de taille n
indépendants avec remise, analogues à des tirages dans une urne avec
remise. C'est le seul cadre qui donne des résultats permettant un
contrôle mathématique de la précision (notion de fourchette ou
d'intervalle de confiance) et de la certitude (en terme de
probabilité) ; ce n'est malheureusement pas le cas des sondages
d'opinion où le choix des sondés n'a aucun caractère aléatoire mais
relève de choix empiriques propres à l'institut de sondage, qui
peuvent s'avérer justes ou erronés, mais sur lesquels on n'a aucun
contrôle mathématique de la précision ou de la certitude.
b) Estimation ponctuelle de certains paramètres
Un estimateur d'un paramètre est une variable aléatoire qui est censée
approcher ce paramètre en un certain sens. La première qualité d'un
estimateur est de converger (en loi, presque sûrement) vers ce
paramètre. Ainsi, avec les notations de V 3, les variables [pic],
[pic], [pic]sont des estimateurs des paramètres [pic], p, [pic],
moyenne, proportion, et variance respective dans une population.
On a bien, d'après les résultats précédents : [pic], [pic] et [