Statistiques - LAAS

TCL, échantillonnage ... Estimation ponctuelle, ESB, risque quadratique ... Un
examen terminal écrit sur l'ensemble du programme se déroulera à la fin du mois
 ...

Part of the document


Statistiques
La statistique est l'ensemble des instruments et de recherches
mathématiques permettant de déterminer les caractéristiques d'un ensemble
de données (généralement vaste).
Ce domaine des mathématiques ne doit pas être confondu avec une statistique
qui est un nombre calculé à partir d'observations. Pour un article (plus
technique) sur une statistique consultez l'article statistique.
Les statistiques sont le produit des analyses reposant sur l'usage de la
statistique. Cette activité regroupe trois principales branches :
. la collecte des données ;
. le traitement des données collectées, aussi appelé la statistique
descriptive ;
. l'interprétation des données, aussi appelée l'inférence statistique,
qui s'appuie sur la théorie des sondages et la statistique
mathématique.
Cette distinction ne consiste pas à définir plusieurs domaines étanches. En
effet, le traitement et l'interprétation des données ne peuvent se faire
que lorsque celles-ci ont été récoltées. Réciproquement, la statistique
mathématique précise les règles et les méthodes sur la collecte des
données, pour que celles-ci puissent être correctement interprétées.
John Tukey disait qu'il y a deux approches en statistiques, entre
lesquelles on jongle constamment : les statistiques exploratoires et les
statistiques confirmatoires (exploratory and confirmatory statistics) :
. on explore d'abord les données pour avoir une idée qualitative de
leurs propriétés ;
. puis on fait des hypothèses de comportement que l'on confirme ou
infirme en recourant à d'autres techniques statistiques. |Sommaire |
|[masquer] |
|1 Histoire |
|2 Domaines d'application |
|3 Statistique descriptive et statistique |
|mathématique |
|4 Statisticien |
|5 La démarche statistique |
|5.1 Recueil des données |
|5.2 Traitement des données |
|5.2.1 Étude d'une seule variable |
|5.2.2 Étude de plusieurs variables |
|5.3 Interprétation et analyse des données |
|5.4 Statistique mathématique |
|5.5 Statistique en sciences sociales |
|5.5.1 En sociologie |
|6 Voir aussi |
|6.1 Liens internes |
|6.2 Liens externes |
|6.3 Ouvrages de références |
[pic]Histoire [modifier] Article détaillé : histoire des statistiques.
Bien que le nom de statistique soit relativement récent - on attribue en
général l'origine du nom au XVIIIe siècle de l'allemand Staatskunde - cette
activité semble exister dès la naissance des premières structures sociales.
D'ailleurs, les premiers textes écrits retrouvés étaient des recensements
du bétail, des informations sur son cours et des contrats divers. On a
ainsi trace de recensements en Chine au XXIIIe siècle av. J.-C. ou en
Égypte au XVIIIe siècle av. J.-C.. Ce système de recueil de données se
poursuit jusqu'au XVIIe siècle. En Europe, le rôle de collecteur est
souvent tenu par des guildes marchandes, puis par les intendants de l'État.
Ce n'est qu'au XVIIIe siècle que l'on voit apparaître le rôle prévisionnel
des statistiques avec la construction des premières tables de mortalité.
La statistique mathématique s'appuyait sur les premiers travaux concernant
les probabilités développés par Fermat et Pascal. C'est probablement chez
Thomas Bayes que l'on vit apparaître un embryon de statistique
inférentielle. Condorcet et Laplace parlaient encore de probabilité là où
l'on parlerait aujourd'hui de fréquence. Mais c'est à Adolphe Quételet que
l'on doit l'idée que la statistique est une science s'appuyant sur les
probabilités.
Le XIXe siècle voit cette activité prendre son plein essor. Des règles
précises sur la collecte et l'interprétation des données furent édictées.
La première application industrielle des statistiques eut lieu lors du
recensement américain de 1890, qui mit en ?uvre la carte perforée inventée
par le statisticien Herman Hollerith. Celui-ci avait déposé un brevet au
bureau américain des brevets.
Au XXe siècle, ces applications industrielles se développèrent d'abord aux
États-Unis, qui étaient en avance sur les sciences de gestion, puis
seulement après la Première Guerre mondiale en Europe. Le régime nazi
employa des méthodes statistiques à partir de 1934 pour le réarmement. En
France, on était moins au fait de ces applications.
L'application industrielle des statistiques en France se développe avec la
création de l'INSEE, qui remplaça le Service National des Statistiques créé
par René Carmille.
L'avènement de l'informatique dans les années 1940 (aux États-Unis), puis
en Europe (dans les années 1960) permit de traiter un plus grand nombre de
données, mais surtout de croiser entre elles des séries de données de types
différents. C'est le développement de ce qu'on appelle l'analyse
multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont
s'affronter :
. les objectivistes ou fréquentistes qui pensent que les probabilités
fournissent un modèle permettant d'idéaliser la distribution en
fréquence et que là s'arrêtent leur rôle ;
. les subjectivistes qui voient les probabilités comme un moyen de
mesurer la confiance que l'on peut avoir dans une prévision ;
. les néo-bayesiens qui soutiennent que les données statistiques seules
ne permettent pas de donner le modèle probabiliste idéalisant la
distribution en fréquence: il est nécessaire de proposer au départ une
forme générale du modèle. Domaines d'application [modifier] Les statistiques sont utilisées dans des domaines très variés comme :
. en géophysique, pour les prévisions météorologiques, la climatologie,
la pollution, les études des rivières et des océans ;
. en démographie : le recensement permet de faire une photographie à un
instant donné d'une population et permettra par la suite des sondages
dans des échantillons représentatifs ;
. en sciences économiques et sociales, et en économétrie : l'étude du
comportement d'un groupe de population ou d'un secteur économique
s'appuie sur des statistiques. C'est dans cette direction que
travaille l'INSEE. Les questions environnementales s'appuient
également sur des données statistiques ;
. en sociologie : les sources statistiques constituent des matériaux
d'enquête, et les méthodes statistiques sont utilisées comme
techniques de traitement des données ;
. en marketing : le sondage d'opinion devient un outil pour la décision
ou l'investissement ;
. en physique : l'étude de la mécanique statistique et de la
thermodynamique statistique (cf Physique statistique) permet de
déduire du comportement de particules individuelles un comportement
global (passage du microscopique au macroscopique) ;
. en métrologie, pour tout ce qui concerne les systèmes de mesure et les
mesures elles-mêmes ;
. en médecine et en psychologie, tant pour le comportement des maladies
que leur fréquence ou la validité d'un traitement ou d'un dépistage ;
. en archéologie, appliquée aux vestiges (céramologie...)
. en écologie (étude des communautés végétales et des écosystèmes)
. en assurance et en finance (calcul des risques,...) Statistique descriptive et statistique mathématique [modifier] Le but de la statistique est d'extraire des informations pertinentes d'une
liste de nombres difficile à interpréter par une simple lecture. Deux
grandes familles de méthodes sont utilisées selon les circonstances. Rien
n'interdit de les utiliser en parallèle dans un problème concret mais il ne
faut pas oublier qu'elles résolvent des problèmes de natures totalement
distinctes. Selon une terminologie classique, ce sont la statistique
descriptive et la statistique mathématique. Aujourd'hui, il semble que des
expressions comme analyse des données et statistique inférentielle soient
préférées, ce qui est justifié par le progrès des méthodes utilisées dans
le premier cas.
Considérons par exemple les notes globales à un examen. Il peut être
intéressant d'en tirer une valeur centrale qui donne une idée synthétique
sur le niveau des étudiants. Celle-ci peut être complétée par une valeur de
dispersion qui mesure, d'une certaine manière, l'homogénéité du groupe. Si
on veut une information plus précise sur ce dernier point, on pourra
construire un histogramme ou, d'un point de vue légèrement différent,
considérer les déciles. Ces notions peuvent être intéressantes pour faire
des comparaisons avec les examens analogues passés les années précédentes
ou en d'autres lieux. Ce sont les problèmes les plus élémentaires de
l'analyse des données qui concernent une population finie. Les problèmes
portant sur des statistiques multidimensionnelles nécessitent l'utilisation
de l'algèbre linéaire. Indépendamment du caractère, élémentaire ou non, du
problème il s'agit de réductions statistiques de données connues dans
lesquelles l'introduction des probabilités améliorerait difficilement
l'information obtenue. Il est raisonnable de regrouper ces différentes
notions :
. statistique descriptive pour les notions élémentaires ;
. analyse en composantes principales ;
. analyse factorielle des correspondances ;
. analyse discriminante ;
. visualisation des données ;