Indice et distance de Jaccard

L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons.



Catégories :

Probabilités - Statistiques

Recherche sur Google Images :


Source image : wapedia.mobi
Cette image est un résultat de recherche de Google Image. Elle est peut-être réduite par rapport à l'originale et/ou protégée par des droits d'auteur.

Page(s) en rapport avec ce sujet :

  • ... Les indices les plus connus sont celui de Jaccard (S7) et celui de Sørensen... Le plus courant des indices de distance métriques est la... (source : pro.chemist.online)
  • ) De quelle façon faut-il calculer la distance entre deux groupes d'observations... L'indice de similitude de Jaccard est alors défini comme étant égal au... (source : unige)
  • Séquences : distance d'alignement (nombre de nucléotides ou d'acides aminés différents). – Morphologique qualitatif : • Indice de Jaccard, npp / K – naa... (source : wwwabi.snv.jussieu)

L'indice et la distance de Jaccard sont deux métriques utilisées en statistiques pour comparer la similarité et la diversité entre des échantillons. Elles sont appelées selon le botaniste suisse Paul Jaccard.

L'indice de Jaccard (ou cœfficient de Jaccard) est le rapport entre la cardinalité (la taille) de l'intersection des ensembles reconnus et la cardinalité de l'union des ensembles. Il permet d'évaluer la similarité entre les ensembles. Soit deux ensembles A et B, l'indice est :

 J(A,B) = \frac{|A \cap B|}{|A \cup B|}.

L'extension à n ensembles est triviale :

 J(S_1, S_2, ..., S_n) = \frac{|S_1 \cap S_2 \cap ... \cap S_n |}{|S_1 \cup S_2 \cup ... \cup S_n |}.

La distance de Jaccard mesure la dissimilarité entre les ensembles. Elle consiste simplement à soustraire l'indice de Jaccard à 1.

 J_{\delta}(A,B) = 1 - J(A,B) = { { |A \cup B| - |A \cap B| } \over |A \cup B| }.

De la même manière que pour l'indice, la généralisation devient :

 J_{\delta}(S_1, S_2, ..., S_n) = 1 - J(S_1, S_2, ..., S_n) = \frac{|S_1 \cup S_2 \cup ... \cup S_n | - |S_1 \cap S_2 \cap ... \cap S_n |}{|S_1 \cup S_2 \cup ... \cup S_n |}.

Similarité entre des ensembles binaires

L'indice de Jaccard est utile pour étudier la similarité entre des objets constitués d'attributs binaires.

Soit deux séquences A et B, chacune avec n attributs binaires. Chaque attribut peut être à 0 ou 1. On a ainsi :

 A = (a_1, a_2, ..., a_n)∼
 B = (b_1, b_2, ..., b_n)∼

On définit plusieurs quantités qui caractérisent les deux ensembles :

M_{11}∼ représente le nombre d'attributs qui valent 1 dans A et dans B
M_{01}∼ représente le nombre d'attributs qui valent 0 dans A et 1 dans B
M_{10}∼ représente le nombre d'attributs qui valent 1 dans A et 0 dans B
M_{00}∼ représente le nombre d'attributs qui valent 0 dans A et dans B

Chaque paire d'attributs doit obligatoirement appartenir à l'une des quatre catégories, de telle sorte que :

M_{11} + M_{01} + M_{10} + M_{00} = n ∼.

L'indice de Jaccard devient :

J = {M_{11} \over M_{01} + M_{10} + M_{11}}

La distance de Jaccard devient :

J_{\delta} = {M_{01} + M_{10} \over M_{01} + M_{10} + M_{11}}

Exemple

 A = (1,0,1,0,0,0,0)∼
 B = (1,0,0,1,0,1,1)∼
M_{11} = 1 ∼
M_{00} = 2 ∼
M_{01} = 3 ∼
M_{10} = 1 ∼
J = \frac{1}{ 3 + 1 + 1} = 0,2
J_{\delta} = \frac{3+1}{ 3 + 1 + 1} = 0,8 = 1 - J

Voir aussi

Références

Liens externes

Recherche sur Amazone (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Indice_et_distance_de_Jaccard.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu