Statistiques

La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données mais aussi la présentation de ces données pour les rendre lisibles.



Catégories :

Statistiques - Méthode d'analyse

La statistique est à la fois une science formelle, une méthode et une technique. Elle comprend la collecte, l'analyse, l'interprétation de données mais aussi la présentation de ces données pour les rendre lisibles.

Ce domaine des mathématiques ne doit pas être confondu avec une statistique qui est un nombre calculé à partir d'observations. Pour un article (plus technique) sur une statistique consultez l'article statistique.

Les statistiques sont le produit des analyses reposant sur l'usage de la statistique. Cette activité regroupe trois principales branches :

Cette distinction ne consiste pas à définir plusieurs domaines étanches. En effet, le traitement et l'interprétation des données ne peuvent se faire que quand celles-ci ont été récoltées. Réciproquement, la statistique mathématique précise les règles et les méthodes sur la collecte des données, pour que celles-ci puissent être correctement interprétées.

John Tukey disait qu'il y a deux approches en statistiques, entre lesquelles on jongle constamment : les statistiques exploratoires et les statistiques confirmatoires (exploratory and confirmatory statistics)  :

Histoire

Article détaillé : histoire des statistiques.

Bien que le nom de statistique soit assez récent – on attribue généralement l'origine du nom au XVIIIe siècle de l'allemand Staatskunde – cette activité semble exister dès l'apparition des premières structures sociales. D'ailleurs, les premiers textes écrits retrouvés étaient des recensements du bétail, des informations sur son cours et des contrats divers. On a ainsi trace de recensements en Chine au XXIIIe siècle av. J. -C. ou en Égypte au XVIIIe siècle av. J. -C. . Ce dispositif de recueil de données se poursuit jusqu'au XVIIe siècle. En Europe, le rôle de collecteur est fréquemment tenu par des guildes marchandes, puis par les intendants de l'État.

Ce n'est qu'au XVIIIe siècle qu'on voit naitre le rôle prévisionnel des statistiques avec la construction des premières tables de mortalité. Antoine Deparcieux écrit en 1746 l'Essai sur les probabilités de la durée de vie humaine. Elle va en premier lieu servir aux compagnies d'assurances sur la vie qui se créent alors. [1]

La statistique mathématique s'appuyait sur les premiers travaux concernant les probabilités développés par Fermat et Pascal. C'est certainement chez Thomas Bayes qu'on vit apparaître un embryon de statistique inférentielle. Condorcet et Laplace parlaient toujours de probabilité à l'endroit où on parlerait actuellement de fréquence. Mais c'est à Adolphe Quetelet qu'on doit l'idée que la statistique est une science s'appuyant sur les probabilités.

Le XIXe siècle voit cette activité prendre son plein essor. Des règles précises sur la collecte et l'interprétation des données furent édictées. La première application industrielle des statistiques eut lieu lors du recensement américain de 1890, qui mit en œuvre la carte perforée découverte par le statisticien Herman Hollerith. Ce dernier avait déposé un brevet au bureau américain des brevets.

Au XXe siècle, ces applications industrielles se développèrent en premier lieu aux États-Unis, qui étaient en avance sur les sciences de gestion, puis uniquement après la Première Guerre mondiale en Europe. Le régime nazi employa des méthodes statistiques à partir de 1934 pour le réarmement. En France, on était moins au fait de ces applications.

L'application industrielle des statistiques en France se développe avec la création de l'INSEE, qui remplaça le Service National des Statistiques créé par René Carmille.

L'avènement de l'informatique dans les années 1940 (aux États-Unis), puis en Europe (dans les années 1960) permit de traiter un plus grand nombre de données, mais en particulier de croiser entre elles des séries de données de types différents. C'est le développement de ce qu'on nomme l'analyse multidimensionnelle. Au cours du siècle, plusieurs courants de pensée vont s'affronter :

Domaines d'application

Les statistiques sont utilisées dans des domaines particulièrement variés comme :

L'objectif de la statistique est d'extraire des informations pertinentes d'une liste de nombres complexe à interpréter par une simple lecture. Deux grandes familles de méthodes sont utilisées selon les circonstances. Rien n'interdit de les utiliser en parallèle dans un problème concret mais il ne faut pas oublier qu'elles résolvent des problèmes de natures complètement différentes. Selon une terminologie classique, ce sont la et la statistique mathématique. Actuellement, il semble que des expressions comme analyse des données et statistique inférentielle soient préférées, ce qui est justifié par le progrès des méthodes utilisées dans le premier cas.

Considérons par exemple les notes globales à un examen. Il peut être intéressant d'en tirer une valeur centrale qui donne une idée synthétique sur le niveau des étudiants. Celle-ci peut être complétée par une valeur de dispersion qui mesure, d'une certaine manière, l'homogénéité du groupe. Si on veut une information plus précise sur ce dernier point, on pourra construire un histogramme ou, d'un point de vue un peu différent, considérer les déciles. Ces notions peuvent être intéressantes pour faire des comparaisons avec les examens analogues passés les années précédentes ou en d'autres lieux. Ce sont les problèmes les plus élémentaires de l'analyse des données qui concernent une population finie. Les problèmes portant sur des statistiques multidimensionnelles nécessitent l'utilisation de l'algèbre linéaire. Indépendamment du caractère, élémentaire ou non, du problème il s'agit de réductions statistiques de données connues dans lesquelles l'introduction des probabilités perfectionnerait difficilement l'information obtenue. Il est raisonnable de regrouper ces différentes notions :

Un changement radical se produit quand les données ne sont plus reconnues comme une information complète à décrypter selon les règles de l'algèbre mais comme une information partielle sur une population plus importante, le plus souvent reconnue comme une population illimitée. Pour induire des informations sur la population inconnue il faut introduire la notion de loi de probabilité. Les données connues forment dans ce cas une réalisation d'un échantillon, ensemble de variables aléatoires supposées indépendantes (voir Loi de probabilité à plusieurs variables). La théorie des probabilités permet alors, entre autres opérations :

Statisticien

Article détaillé : Statisticien.

Le statisticien utilise des statistiques théoriques et appliquées dans le secteur privé et le secteur public. Le cœur du travail est de mesurer, interpréter et décrire le monde en combinant le plus souvent l'interprétation statistique avec des fortes connaissances sur le domaine d'étude.

Les domaines d'applications sont particulièrement variés : la production, la recherche, les finances, la médecine, l'assurance et les statistiques descriptives au sujet de la société. Les statisticiens sont fréquemment employés comme aide à la décision. Ils effectuent des recherches sur des concepts, des théories, des procédés et des méthodes statistiques, sous leurs aspects mathématiques et autres, les perfectionnent, et donnent des avis sur leurs applications dans des domaines tels que le commerce, la médecine, les sciences sociales et autres, ou les appliquent eux-mêmes.

La démarche statistique

Recueil des données

L'enquête statistique est toujours précédée d'une phase où sont déterminés les différents caractères à étudier.

L'étape suivante consiste à choisir la population à étudier. Il se pose alors le problème de l'échantillonnage : choix de la population à sonder (au sens large : cela peut être un sondage d'opinion en interrogeant des humains, ou bien le ramassage de roches pour déterminer la nature d'un sol en géologie), la taille de la population et sa représentativité.

Que ce soit pour un recueil total (recensement) ou partiel (sondage), des protocoles sont à mettre en place pour éviter les erreurs de mesures qu'elles soient accidentelles ou répétitives (biais).

Le pré traitement des données est extrêmement important, en effet, une transformation des données initiales (un passage au logarithme, par exemple), peuvent énormément favoriser les traitements statistiques suivants.

Traitement des données

Le résultat de l'enquête statistique est une série de chiffres (tailles, salaires) ou de données qualitatives (langues parlées, marques préférées). Pour pouvoir les exploiter, il va être indispensable d'en faire un classement et un résumé visuel ou numérique. Il sera quelquefois indispensable d'opérer une compression de données. C'est le travail de la statistique descriptive. Il sera différent selon que l'étude porte sur une seule variable ou sur plusieurs variables.

Étude d'une seule variable

Le regroupement des données, le calcul des effectifs, la construction de graphiques permet un premier résumé visuel du caractère statistique étudié. Dans le cas d'un caractère quantitatif continu, l'histogramme en est la représentation graphique la plus courante.

Les valeurs numériques d'un caractère statistique se répartissent dans \mathbb{R}, il est indispensable de définir leurs positions. En statistiques, on est généralement en présence de la plupart de valeurs. Or, si l'intégralité de ces valeurs forme l'information, il n'est pas aisé de manipuler plusieurs centaines ou alors milliers de chiffres, ni d'en tirer des conclusions. Il faut par conséquent calculer quelques valeurs qui vont permettre d'analyser les données : c'est le rôle des réductions statistiques. Celles-ci peuvent être extrêmement concises, réduites à un nombre : c'est le cas des valeurs centrales et des valeurs de dispersion. Certaines d'entre elles (comme la variance) sont élaborées pour permettre une exploitation plus théorique des données (voir Inférence statistique)

On peut aussi chercher à comparer deux populations. On s'intéressera alors surtout à leurs critères de position, de dispersion, à leur boîte à moustaches ou à l'analyse de la variance.

Étude de plusieurs variables

Les moyens informatiques permettent actuellement d'étudier plusieurs variables simultanément. Le cas de deux variables va donner lieu à la création d'un nuage de points, d'une étude de corrélation (mathématiques) éventuelle entre les deux phénomènes ou étude d'une régression linéaire.

Mais on peut rencontrer des études sur plus de deux variables : c'est l'analyse multidimensionnelle dans laquelle on va trouver l'analyse en composantes principales, l'analyse en composantes indépendantes, la régression linéaire multiple et le data mining. Actuellement, le data mining (appelé aussi knowledge discovery) s'appuie sur la statistique pour découvrir des relations entre les variables de très vastes bases de données. Les avancées technologiques (augmentation de la fréquence des capteurs disponibles, des moyens de stockage, et de la puissance de calcul) donnent au data mining un vrai intérêt.

Interprétation et analyse des données

Article détaillé : Inférence statistique.

L'inférence statistique a pour but de faire émerger des propriétés d'un ensemble de variables connues seulement à travers quelques une de ses réalisations (qui forment un échantillon de données).

Elle s'appuie sur les résultats de la statistique mathématique, qui applique des calculs mathématiques rigoureux concernant la théorie des probabilités et la théorie de l'information aux situations où on n'observe que quelques réalisations (expérimentations) du phénomène à étudier.

Sans la statistique mathématique, un calcul sur des données (par exemple une moyenne), n'est qu'un indicateur. C'est la statistique mathématique qui lui donne le statut d'estimateur dont on maîtrise le biais, l'incertitude et autres caractéristiques statistiques. On cherche généralement à ce que l'estimateur soit sans biais, convergeant et efficace.

On peut aussi émettre des hypothèses sur la loi générant le phénomène général, par exemple «la taille des enfants de 10 ans en France suit-elle une loi gaussienne ?». L'étude de l'échantillon va alors valider ou non cette hypothèse : c'est ce qu'on nomme les tests d'hypothèses. Les tests d'hypothèses permettent de quantifier la probabilité avec laquelle des variables (connues uniquement à partir d'un échantillon) vérifient une propriété donnée.

Enfin, on peut chercher à modéliser un phénomène a posteriori. La modélisation statistique doit être différenciée de la modélisation physique. Dans le second cas des physiciens (c'est aussi vrai pour des chimistes, biologistes, ou tout autre scientifique), cherchent à construire un modèle explicatif d'un phénomène, qui est soutenu par une théorie plus générale décrivant comment les phénomènes ont lieu en exploitant le principe de causalité. Dans le cas de la modélisation statistique, le modèle va être construit à partir des données disponibles, sans aucun a priori sur les mécanismes entrant en jeux. Ce type de modélisation se nomme aussi modélisation empirique. Compléter une modélisation statistique par des équations physiques (fréquemment intégrées dans les pré traitements des données) est toujours positif.

Un modèle est avant tout un moyen de relier des variables à expliquer Y à des variables explicatives X, par une relation fonctionnelle :

Y = F (X)

Les modèles statistiques peuvent être regroupés en grandes familles (suivant la forme de la fonction F)  :

Les modèles bayésiens (du nom de Bayes) peuvent être utilisés dans les trois catégories.

Statistique mathématique

Cette branche des mathématiques, particulièrement liée aux probabilités, est indispensable pour valider les hypothèses ou les modèles élaborés dans la statistique inférentielle. La théorie mathématiques des probabilités formalise les phénomènes aléatoires. Les statistiques mathématiques se consacrent à l'étude de phénomènes aléatoires qu'on connaît via certaines de ses réalisations.

A titre d'exemple, pour une partie de dés à six faces :

Une fois la règle établie, elle est parfois utilisée en statistique inférentielle.

Statistique en sciences sociales

Les statistiques sont utilisées dans la majorité des sciences sociales. Elles présentent une méthodologie commune avec cependant certaines spécificités selon la complexité de l'objet d'étude

En sociologie

L'apport des méthodes statistiques permet au sociologue l'utilisation de méthode quantitative lui servant à déterminer des sociostyles.

Le problème majeur est pour le chercheur de définir des unités identiques (style de vie, tranche de revenus, opinions politiques etc... ).

Le sociologue réussit ainsi à déterminer des nuages de points correspondant à des axes comportementaux qui définissent l'évolution des différents groupes sociaux vers tel type de comportement (achat de tel ou tel produit, vote pour tel ou tel candidat à une élection).

Voir aussi

Liens externes

Ouvrages de références

Notes et références

  1. Almanach des Français, traditions et variations, page 194.

Recherche sur Google Images :



"rappels de probabilités"

L'image ci-contre est extraite du site blogperso.univ-rennes1.fr

Il est possible que cette image soit réduite par rapport à l'originale. Elle est peut-être protégée par des droits d'auteur.

Voir l'image en taille réelle (368 x 500 - 200 ko - jpg)

Refaire la recherche sur Google Images

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Statistiques.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu