Écart type

En mathématiques, plus exactement en statistiques et probabilités, l'écart type mesure la dispersion d'une série de valeurs autour de leur moyenne.



Catégories :

Statistique descriptive - Probabilités

Recherche sur Google Images :


Source image : modalisa.com
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Définitions :

  • Mesure de la variabilité d'un nombre de points de données relative à leur moyenne (niveau moyen).... (source : e-a-r)
  • Mesure du degré de variation dans les valeurs comparé au nombre ou au taux moyen. (source : dsol-smed.phac-aspc.gc)

En mathématiques, plus exactement en statistiques et probabilités, l'écart type mesure la dispersion d'une série de valeurs autour de leur moyenne.

Dans le domaine des probabilités, l'écart type est une quantité réelle positive, peut-être illimitée, utilisée pour caractériser la répartition d'une variable aléatoire réelle autour de sa moyenne. Surtout, la moyenne et l'écart type caractérisent entièrement les lois gaussiennes à un paramètre réel, de sorte qu'ils sont utilisés pour les paramétrer. D'une façon plus générale, l'écart type, à travers son carré, nommé variance, sert à caractériser des lois gaussiennes en dimension supérieure. Ces considérations ne sont pas sans importance, surtout dans l'application du théorème de la limite centrale.

En statistiques, surtout en principe des sondages, ainsi qu'en métrologie, l'écart type tente d'évaluer, à partir d'un échantillon soumis au hasard, la dispersion de la population tout entière. On peut distinguer alors l'écart type empirique (biaisé) et l'écart type empirique corrigé dont la formule diffère de celle utilisée en probabilité.

Les écarts types connaissent de nombreuses applications, tant dans les sondages, qu'en physique (où ils sont fréquemment appelés RMS par abus de langage), ou en biologie. Ils permettent en pratique de rendre compte des résultats numériques d'une expérience répétée. En finance l'écart type est une mesure de la volatilité d'un actif.

Généralités

En statistiques comme en probabilités on définit, hormis des valeurs centrales, des valeurs de dispersion.

Dans le domaine des probabilités, la dispersion d'une variable aléatoire réelle X autour de sa moyenne est caractérisée par la variance dont le calcul repose sur la notion d'espérance mathématique.

Quasiment, c'est l'écart-type ou écart quadratique moyen, racine carrée de la variance, qui est utilisé car il possède les mêmes dimensions physiques que la variable. Cette notion apparaît aussi dans l'analyse des signaux, fréquemment en relation avec la notion de processus aléatoire, le plus souvent sous le nom de moyenne quadratique.

En qui porte sur une population finie idéalement connue, les valeurs de dispersion, comme les valeurs centrales, peuvent être choisies arbitrairement (écart-type, écart moyen, étendue, ... ).

La statistique mathématique porte au contraire sur une population illimitée qui ne peut être connue qu'imparfaitement à travers un ensemble fini de données [x_1..x_n]\,. Pour interpréter ces données imprécises, il faut faire appel à la notion de probabilité. Les données sont alors reconnues comme une réalisation d'un échantillon constitué par les variables aléatoires [X_1..X_n]\,. Par des calculs arithmétiques analogues à ceux qui sont effectués en statistique descriptive, il est envisageable de déduire de la réalisation de l'échantillon des estimations de la moyenne empirique et de la variance empirique qui sont elles-mêmes des variables aléatoires. La moyenne empirique apporte une estimation sans biais de la moyenne de la loi de probabilité car son espérance est égale à cette dernière. Au contraire, la variance empirique apporte une estimation biaisée de la variance ; pour obtenir une estimation sans biais, il faut la multiplier par \frac n {n-1}.

Première approche

L'écart-type permet de mesurer la dispersion d'un ensemble de données, par exemple la répartition des notes d'une classe. Dans ce cas, plus l'écart-type est faible, plus la classe est homogène. À l'inverse, on peut souhaiter avoir un écart type le plus large envisageable pour éviter que les notes soient trop resserrées (exemple classique du professeur qui note de 8 à 13).

Dans le cas d'une notation de 0 à 20, l'écart type minimum est 0 (si l'ensemble des élèves/étudiants ont la même note), et jusqu'à à peu près 10 si la moitié a 0/20 et l'autre moitié 20/20.

En sciences humaines, il est habituel de considérer que les valeurs se répartissent selon une courbe de Gauss (courbe en forme de cloche). Dans ce cas, la donnée de la moyenne et l'écart-type sert à déterminer l'intervalle dans lequel on trouve 95 % de la population. Si la moyenne est m et l'écart type est σ, on trouve 95 % de la population dans l'intervalle [m − 2σ;m + 2σ] et on trouve 68 % de la population dans l'intervalle [m − σ;m + σ].

En probabilité

Dans la formulation moderne des probabilités, suite aux travaux de Henri Lebesgue, une variable aléatoire X est une application à valeurs réelles ou vectorielles, dépendant d'un paramètre x suivant une loi de probabilité P. Si la compréhension du formalisme fait appel à la théorie de la mesure, son utilisation reste simple. L'application X ne joue pas un rôle essentiel ; seule sa loi, l'image de P par X, notée PX, importe. C'est une mesure sur R ou sur Rn. Deux quantités lui sont associées :

\sigma_Xˆ2=E[(X-E[X])ˆ2]=E[Xˆ2]-E[X]ˆ2.

Ici, l'élévation au carré pour le membre de droite sert à désigner implicitement la norme euclidienne au carré dans le cas où X est à valeurs vectorielles.

Cette identité se spécialise dans la plupart de cas spécifiques. Entre autres :

Probabilité discrète

Si la variable X prend un nombre fini de valeurs réelles x1, ..., xn, avec des probabilités respectives p1, ..., pn (sous la condition \sum_{i=1}ˆn p_i=1), l'écart type est donné par :

\sigma = \sqrt{\sum_{i=1}ˆn p_i.(x_i-\overline{x})ˆ2} = \sqrt{\left( \sum_{i=1}ˆn p_i.x_iˆ2 \right) - \overline{x}ˆ2 }, où : \overline{x}=\sum_{i=1}ˆn p_i.x_i.

En particulier, si la loi de X est uniforme sur un ensemble fini de valeurs, on a :

\sigma_X=\sqrt{ \frac{1}{n}\sum_{i=1}ˆn (x_i-\overline{x})ˆ2} = \sqrt{ \frac{1}{n}\left( \sum_{i=1}ˆn x_iˆ2 \right) - \overline{x}ˆ2 }, où : \overline{x}=\frac{1}{n}\sum_{i=1}ˆn x_i.

Ces formules se généralisent immédiatement en dimension supérieure en remplaçant l'élévation au carré par la norme euclidienne au carré.

Probabilité uniformément continue

La loi PX est dite uniformément continue quand la probabilité que X appartienne au segment [a, b] est :

P_x((a,b))=P(X\in (a,b))=\int_aˆb f(x)dx

f est une fonction localement intégrable pour la mesure de Lebesgue, par exemple mais pas obligatoirement une fonction continue. Cette fonction f se nomme la densité de la loi PX. Elle est globalement intégrable et de carré intégrable.

L'écart type de X est défini par :

\sigma_X=\sqrt{\int_{R} f(x) xˆ2dx-{\left(\int_{R}f(x) x dx\right)}ˆ2}.

Exemples d'écarts types

Le tableau suivant donne les écarts types pour les lois fréquemment rencontrées :

Nom de la loi Paramètre Description Ecart-type
Loi de Bernoulli p Loi discrète de valeurs 0 avec probabilité 1-p et 1 avec probabilité p \sigma=\sqrt{p(1-p)}
Loi binomiale p et n>1 Loi de la somme indépendantes de n variables suivant la loi de Bernoulli de paramètre p \sigma=\sqrt{n.p-p)}
Loi géométrique p Loi discrète sur N telle que la probabilité d'obtenir l'entier n soit (1-p). pn σ = p / (1 − p) 2
Loi uniforme sur un segment a<b Loi uniformément continue sur R de densité la fonction indicatrice de [a, b] à un cœfficient près \sigma=\frac{b-a}{\sqrt{12}}
Loi exponentielle p Loi uniformément continue de support R+ de densité la fonction f (x) =p. exp (-p. x) σ = 1 / p



Estimation

En statistiques, deux estimateurs de l'écart type sont le plus souvent utilisés. Ces estimateurs sont simplement obtenus en prenant la racine des estimateurs de la variance, dans la mesure où l'écart-type est juste la racine de la variance.

On note fréquemment les statistiques variance empirique Sˆ2_n (S2) et variance empirique corrigée Sˆ2_{n-1} (ou S'2) car l'écart type s'exprime comme la racine carrée de la variance.

Écart type empirique

Si la valeur exacte de la moyenne \bar{X} est connue (par exemple s'il s'agit d'une valeur théorique, ou si on considère une population de taille finie comme c'est le plus souvent le cas en), on peut utiliser l'écart type empirique défini par :

S_n=\sqrt{\frac{1}{n}\sum_{i=1}ˆn(X_i-\bar{X})ˆ2} = \sqrt{\frac{1}{n}\sum_{i=1}ˆn(X_iˆ2)-\bar{X}ˆ2}.

Une réalisation de la statistique S est donnée par :

s=\sqrt{\frac{1}{n}\sum_{i=1}ˆn(x_i-\overline{x})ˆ2}.

Écart type empirique corrigé

Quand la moyenne est une estimation, c'est-à-dire que sa valeur exacte est inconnue (c'est par exemple le cas en physique expérimentale, où on n'a accès qu'à la moyenne des valeurs mesurées), l'écart type est donné sous une forme corrigée :

S_{n-1}=\sqrt{\frac{1}{n-1}\sum_{i=1}ˆn(X_i-\overline{X})ˆ2} = S\sqrt{\frac{n}{n-1}},

\bar{X}=\frac{1}{n}\sum_{i=1}ˆn(X_i) représente la moyenne empirique de l'échantillon.

Une réalisation de cette statistique est

s_{n-1}=\sqrt{\frac{1}{n-1}\sum_{i=1}ˆn(x_i-\overline{x})ˆ2} = s\sqrt{\frac{n}{n-1}}.

Propriétés des estimateurs

En général, l'estimateur Sn − 1 est préféré, dans la mesure où l'estimateur  Sˆ2_{n-1} est sans biais. Ces deux estimateurs sont cependant biaisés mais convergents.

Biais

Pour établir les propriétés des estimateurs de l'écart-type, il est utile de rappeler les propriétés des estimateurs de la variance :

Il n'est cependant pas évident de trouver un estimateur non biaisé de l'écart type. En effet, on sait par l'inégalité de Jensen que :

Inégalité de Jensen —  Soit f une fonction convexe sur ]a; b[ et X une variable aléatoire d'espérance finie, à valeurs dans ]a; b[. Alors l'inégalité suivante est vraie :

f(\mathbb{E}(X))  \leq \mathbb{E}[f(X)]

L'inégalité s'inverse avec des fonctions concaves. Comme la fonction racine carrée est concave, on a :

 \operatorname{E}[Sˆ2_{n-1}]=\sigmaˆ2 et donc :
 \operatorname{E}\left[\sqrt{Sˆ2_{n-1}}\right]\leq \sqrt{\sigmaˆ2}.

L'estimateur Sn − 1 sera par conséquent biaisé vers le bas.

Il est en fait particulièrement complexe d'obtenir un estimateur sans biais, et dans le cas où les données suivent une loi normale la formule est assez complexe, (voir la page anglaise : en :Unbiased estimation of standard deviation).

Convergence

Il est utile de rappeler que :

Par le théorème de continuité, on a que :

Théorème — Si g est continue : Si X_n\xrightarrow{p}X \Rightarrow g(X_n)\xrightarrow{p}g(X)

Comme la foncton racine carrée est une fonction continue, Sn − 1 et Sn sont des estimateurs convergents de l'écart-type, soit :  S_{n-1} \xrightarrow{p} \sigma \text{ et } S_{n} \xrightarrow{p} \sigma

Aspect qualitatif

L'écart type caractérise la largeur de la distribution. Il est exprimé mathématiquement comme étant la racine carrée de la variance, celle-ci mesurant la distribution des valeurs autour du centre de la courbe.

Écart type σ = Racine carrée de la variance

La variance est définie comme étant la moyenne arithmétique des carrés des différences entre les valeurs observées et la moyenne. C'est une mesure du degré de dispersion d'un ensemble de données. On la calcule sous la forme de l'écart au carré moyen de chaque nombre comparé à la moyenne d'un ensemble de données.

Répartition de la population

Quand la variable étudiée est gaussienne (répartition selon une courbe en cloche), l'écart type sert à déterminer la répartition de la population autour de la valeur moyenne.

Par exemple : Si par convention, l'écart-type comparé à un échantillon équivaut à 15 points de QI de différence, cela veut dire que les 2/3 à peu près de la population d'une classe d'âge ont un QI compris entre 85 et 115. Voir aussi à ce sujet l'intervalle de confiance d'une distribution normale gaussienne.

Interprétation d'un écart type élevé

Généralement, plus les valeurs sont beaucoup distribuées, plus l'écart type est élevé. Imaginez, par exemple, que nous devions séparer deux ensembles différents de résultats d'examens de 30 élèves; les notes du premier examen fluctuent de 31 % à 98 % et celles du second, de 82 % à 93 %. Compte tenu de ces étendues, l'écart type serait plus grand pour les résultats du premier examen.

Cependant, il n'est pas forcément facile d'évaluer l'importance que doit avoir l'écart type pour que les données soient beaucoup dispersées.
L'importance de l'écart type dépend aussi de l'importance de la valeur moyenne de la totalité des données. Quand vous mesurez quelque chose en millions, le fait d'avoir des mesures qui se rapprochent de la valeur moyenne n'a pas la même signification que si vous mesurez le poids de deux personnes.
A titre d'exemple, si après avoir mesuré les recettes annuelles de deux grandes entreprises, vous constatez un écart de 100 000 euros, la différence est reconnue comme étant peu significative, tandis que si vous mesurez le poids de deux personnes, dont l'écart est de 30 kilogrammes, la différence est reconnue comme étant particulièrement significative.
Voilà pourquoi il est quelquefois utile de travailler, occasionnellemen, sur l'écart type relatif (écart type quotienté par la moyenne).

Voir aussi


Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/%C3%89cart_type.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu