Covariance

En statistiques, la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et, par là, de qualifier l'indépendance de ces variables.



Catégories :

Probabilités - Statistiques

Page(s) en rapport avec ce sujet :

  • Tandis qu'une de la Covariance proche de 0 montre qu'une des variables sera... Le Tutoriel suivant décrit et démontre les propriétés de la Covariance :... (source : aiaccess)
  • Définition, propriétés, et formules reliées aux calculs d'espérance, de variance, de covariance.... Formulaire - Espérance, variance, covariance... (source : bibmath)

En statistiques, la covariance est un nombre permettant d'évaluer le sens de variation de deux variables et , par là, de qualifier l'indépendance de ces variables.

Deux variables ayant une covariance non nulle sont dites dépendantes : par exemple, dans une population donnée, le poids et la taille sont des variables dépendantes. Cependant, elles ne sont pas corrélées : la corrélation est une relation linéaire, or le poids ne fluctue le plus souvent pas par rapport à la taille.

Définition

En théorie des probabilités et en statistique, on appelle covariance de deux variables aléatoires réelles X et Y la valeur :

Définition — \operatorname{cov}(X,Y)\equiv E[(X-E[X])\,(Y-E[Y])]

où E sert à désigner l'espérance mathématique.

Notation — On note quelquefois  \operatorname{cov}(X,Y)\equiv \sigma_{XY}

Intuitivement, la covariance est une mesure de la variation simultanée de deux variables aléatoires. C'est-à-dire que la covariance devient plus positive pour chaque couple de valeurs qui changent de leur moyenne dans le même sens, et plus négative pour chaque couple de valeurs qui changent de leur moyenne dans le sens opposé.

L'unité de mesure de la covariance cov (X, Y) est le produit de l'unité des variables aléatoires X et Y et sa valeur est comprise dans ]-\infty; +\infty[. Par contre, la corrélation, qui dépend de la covariance, est une mesure de dépendance linéaire sans unité et prend ses valeurs dans [ − 1;1].

Dans le cas de variables discrètes, on a :

\sigma_{xy}=\operatorname{cov}(x, y) = \sum_{i=1}ˆn \sum_{j=1}ˆm(x_i y_j p(x_i) p(y_j/x=x_i))-\bar{x}\bar{y}=\sum_{i=1}ˆn \sum_{j=1}ˆm(x_i y_j p(y_j) p(x_i/y=y_j))-\bar{x}\bar{y}
tandis que : \sigma_xˆ2 = \sum_{i=1}ˆn x_iˆ2 p(x_i)-\bar{x}ˆ2 et \sigma_yˆ2 = \sum_{j=1}ˆm y_jˆ2 p(y_j)-\bar{y}ˆ2

Propriétés

Par ressemblance avec le théorème de König-Huyghens pour la variance, on a :

Propriété — \operatorname{cov}(X, Y) = E(X Y) - E(X)E(Y)


La seconde propriété est utile pour les cas de variables X et Y indépendantes

Propriété —  X et Y indépendantes \Rightarrow \operatorname{cov}(X,Y) =0

La réciproque, cependant, n'est pas vraie. Il est en effet envisageable que X et Y ne soient pas indépendantes, et que leur covariance soit nulle. Des variables aléatoires dont la covariance est nulle sont dites non corrélées.

Propriété —  \operatorname{cov}(X, X) = \operatorname{var}(X)

Propriété — \operatorname{cov}(X, Y) = \operatorname{cov}(Y, X)

Propriété —  \operatorname{cov}(cX, Y) = c\, \operatorname{cov}(X, Y) si c est une constante

Propriété —  \operatorname{cov}(X+c, Y) = \operatorname{cov}(X, Y) si c est une constante

Bilinéarité de la covariance :

Propriété —  \operatorname{cov}\left(\sum_i{X_i}, \sum_j{Y_j}\right) = \sum_i{\sum_j{\operatorname{cov}\left(X_i, Y_j\right)}}

Ceci traduit le fait que la covariance est une forme bilinéaire symétrique positive (sur l'espace vectoriel Lˆ2(\Omega, \mathcal{B}, \mathbb{P}) des variables aléatoires de carré intégrable), et que la forme quadratique associée est la variance.

Corollaire —  \operatorname{var}(X+Y) = \operatorname{var}(X) + \operatorname{var}(Y) + 2 \operatorname{cov}(X,Y)

Cette formule est l'analogue de (x + y) 2 = x2 + y2 + 2xy. En réalité, la majorité des propriétés de la covariance sont analogues à celles du produit de deux réels ou du produit scalaire de deux vecteurs.

Propriété —  \operatorname{var}\left(\sum_{i=1}ˆn{X_i}\right) = \sum_{i=1}ˆn\operatorname{var}(X_i) + 2\sum_{1\le i<j\le n}\operatorname{cov}(X_i,X_j)

Cette formule est classique pour une forme quadratique associée à une forme bilinéaire symétrique.

Exemple

Dans un forum Internet, quelqu'un affirme que l'activité du forum est plus intense les jours de pleine lune. On peut ne pas disposer du calendrier des pleines lunes, mais si cette affirmation est exacte et si on appelle N (t) le nombre de contributions au jour t, la covariance entre N (t) et N (t+28) cumulée sur l'ensemble des valeurs de t sera certainement supérieure aux covariances entre N (t) et N (t+x) pour les valeurs de x différentes de 28.

Estimation

Un estimateur de la covariance \operatorname{cov}(AB)\equiv\sigma_{AB} de deux variables aléatoires A et B observées conjointement N fois est donné par :

\hat\sigma_{AB} = \frac{\sum a_i \cdot b_i}{N} - \frac{\sum a_i}{N} \cdot \frac{\sum b_i}{N}


Matrice de variance-covariance

Article détaillé : matrice de variance-covariance.

Définition

La matrice de variance-covariance (ou simplement matrice de variance) d'un vecteur de k variables aléatoires \vec X est la matrice carrée donnée par :


\operatorname{var}(\vec X)
=
\operatorname{var}\begin{pmatrix} X_1  \\ \vdots\\ X_k \end{pmatrix}
=
\begin{pmatrix} 
\operatorname{var}(X_1) & \operatorname{cov}(X_{1}X_{2}) &  \cdots & \operatorname{cov}(X_{1}X_{k}) \\
\operatorname{cov}(X_{1}X_{2}) & \ddots & \cdots & \vdots\\
\vdots & \vdots & \ddots & \vdots\\
\operatorname{cov}(X_{1}X_{k}) & \cdots & \cdots&  \operatorname{var}(X_k) 
\end{pmatrix}
=
\begin{pmatrix} 
\sigmaˆ2_{x_1} & \sigma_{x_{1}x_{2}} &  \cdots & \sigma_{x_{1}x_{k}} \\
\sigma_{x_{1}x_{2}} & \ddots & \cdots & \vdots\\
\vdots & \vdots & \ddots & \vdots\\
\sigma_{x_{1}x_{k}} & \cdots & \cdots&  \sigmaˆ2_{x_k} 
\end{pmatrix}


Vu la propriété que \operatorname{cov}(X, Y) = \operatorname{cov}(Y, X), c'est une matrice symétrique. L'inverse de la matrice de covariance est quelquefois désignée par le terme de «matrice de précision». La matrice de covariance est un cas spécifique de matrice de Gram.

Estimation

Un estimateur de la matrice de variance-covariance de N réalisations d'un vecteur de variables aléatoires peut être donné par :

\operatorname{\widehat {var}}(\vec X) = \frac{\sum x_i \cdot x_iˆT}{N} - \frac{\sum x_i}{N} \cdot \left(\frac{\sum x_i}{N}\right)ˆT

Usage

La connaissance des covariances est le plus fréquemment indispensable dans les fonctions d'estimation, de filtrage et de lissage. Elles permettent, entre autres en photographie, d'arriver à corriger de façon spectaculaire les flous de mise au point mais aussi les flous de bougé, ce qui est extrêmement important pour les clichés astronomiques. On les utilise aussi en automatique. En sociolinguistique, la covariance sert à désigner la correspondance entre l'appartenance à une certaine classe sociale et un certain parler inhérent à cette condition sociale.

Voir aussi

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Covariance.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu