Inférence bayésienne

On appelle inférence bayésienne la démarche logique servant à calculer ou réviser la probabilité d'une hypothèse. Cette démarche est régie par l'utilisation de règles strictes de combinaison des probabilités, desquelles dérive le théorème de Bayes.



Catégories :

Probabilités - Apprentissage automatique

Page(s) en rapport avec ce sujet :

  • On notera [A] la probabilité de l'év`enement aléatoire A et on utilisera in-..... L'inférence bayésienne est particuli`erement simple si on choisit des ...... La boite `a outils de calcul bayésien n'est pas dégarnie de techniques... (source : smf.emath)

On appelle inférence bayésienne la démarche logique servant à calculer ou réviser la probabilité d'une hypothèse. Cette démarche est régie par l'utilisation de règles strictes de combinaison des probabilités, desquelles dérive le théorème de Bayes. Dans la perspective bayésienne, une probabilité n'est pas interprétée comme le passage à la limite d'une fréquence, mais plutôt comme la traduction numérique d'un état de connaissance (le degré de confiance accordé à une hypothèse, par exemple ; voir théorème de Cox-Jaynes).

Jaynes utilisait à ce sujet avec ses étudiants la métaphore d'un robot à logique inductive. On trouvera un lien vers un de ses écrits dans l'article Intelligence artificielle.

La manipulation des probabilités : notation et règles logiques

L'inférence bayésienne est fondée sur la manipulation d'énoncés probabilistes. Ces énoncés doivent être clairs et concis afin d'éviter toute confusion. L'inférence bayésienne est spécifiquement utile dans les problèmes d'induction. Les méthodes bayésiennes se distinguent des méthodes dites standard par l'application systématique de règles formelles de transformation des probabilités. Avant de passer à la description de ces règles, familiarisons-nous avec la notation employée.

Notation des probabilités

Prenons l'exemple d'une femme cherchant à savoir si elle est enceinte. On définira en premier lieu une hypothèse E : elle est enceinte, dont on cherche la probabilité p (E) . Le calcul de cette probabilité passe bien entendu par l'analyse du test de grossesse. Supposons que des études aient démontré que pour des femmes enceintes, le test indique positif 9 fois sur 10. Pour les femmes non-enceintes, le test indique négatif dans un ratio de 19/20. Si on définit les hypothèses :

on peut interpréter les résultats qui ont précédé de manière probabiliste :

La probabilité de l'hypothèse TP sachant que la femme est enceinte est de 0, 9.

En langage des probabilités, cet énoncé sera décrit par l'expression p (TP | E) = 0, 9. De la même manière p(T_N|\bar{E})=0,95 veut dire que la probabilité que le test soit négatif pour une femme qui n'est pas enceinte (\bar{E}) est de 0, 95. Remarquez qu'on suit ici la convention selon laquelle un énoncé ou une hypothèse sans doute vraie a une probabilité de 1. Inversement, un énoncé sans doute faux a une probabilité de 0.

En plus de l'opérateur conditionnel |, les opérateurs logiques ET et OU ont leur notation spécifique. Ainsi, la probabilité simultanée de deux hypothèses est notée par le signe \cap. L'expression p(E \cap T_P) décrit par conséquent la probabilité d'être enceinte ET d'obtenir un test positif. Enfin, pour l'opérateur logique OU, un signe \cup est le plus souvent utilisé. L'expression p(E \cup \bar{E}) veut dire par conséquent la probabilité que la femme soit enceinte ou non. Clairement, selon la convention précédente, cette probabilité doit être de 1, puisque qu'il est impossible d'être dans un état autre qu'enceinte ou pas enceinte.

Les règles de la logique des probabilités

Il existe uniquement deux règles pour combiner les probabilités, ainsi qu'à partir desquelles est bâtie toute la théorie de l'analyse bayésienne. Ces règles sont les règles d'addition et de multiplication.

La règle d'addition p(A \cup B|C) = p(A|C) + p(B|C) - p(A \cap B|C)

La règle de multiplication p(A \cap B) = p(A|B)p(B) = p(B|A)p(A)

Le théorème de Bayes peut être dérivé simplement en mettant à profit la symétrie de la règle de multiplication p(A|B) = \frac{p(B|A)p(A)}{p(B)}.

Le théorème de Bayes permet d'inverser les probabilités. C'est-à-dire que si on connaît les conséquences d'une cause, l'observation des effets sert à remonter aux causes.

Dans le cas précédent de la femme enceinte, sachant le résultat du test , il est envisageable de calculer la probabilité que la femme soit enceinte en utilisant le théorème de Bayes. En effet, dans le cas d'un test positif, p(E|T_P) = \frac{p(T_P|E)p(E)}{p(T_P)}. Remarquez que l'inversion de la probabilité introduit le terme p (E) , la probabilité a priori d'être enceinte, fréquemment nommé le prior. Le prior décrit la probabilité de l'hypothèse, indépendamment du résultat du test . Une femme qui utilise des moyens de contraception choisirait un p (E) particulièrement faible, dans la mesure où elle n'a pas de raison de croire qu'elle est enceinte. Par contre, une femme ayant eu récemment des relations sexuelles non-protégées et souffrant de vomissements habituels adopterait un prior plus élevé. Le résultat du test est par conséquent pesé, ou nuancé, par cette estimation indépendante de la probabilité d'être enceinte.

C'est cette estimation a priori qui est toujours ignorée par les méthodes statistiques standard.

Notation d'évidence

Cette notation est fréquemment attribuée à I. J. Good. Ce dernier en attribuait cependant la paternité à Alan Turing et , indépendamment, à d'autres chercheurs dont Jeffreys.

Dans la pratique, lorsque une probabilité est particulièrement proche de 0 ou de 1, il faut observer des éléments reconnus eux-mêmes comme particulièrement improbables pour la voir se modifier. On définit l'évidence par : Ev(p) =\log\frac{p}{(1-p)} =\log{p}-\log(1-p). Pour mieux fixer les choses, on travaille fréquemment en décibels (dB), avec l'équivalence suivante : Ev(p) = 10\,\log_{10} \frac{p}{(1-p)}. Une évidence de -40 dB correspond à une probabilité de 10-4, etc. Si on prend le logarithme en base 2, Ev(p) = \log_{2} \frac{p}{(1-p)}, l'évidence est exprimée en bits. On a Ev_{dB}= \approx 3,0103\, Ev_{bits}\quad (10ˆ3\approx 2ˆ{10}). L'intérêt de cette notation, hormis qu'elle évite de cette manière d'avoir trop de décimales au voisinage de 0 et de 1, est qu'elle permet aussi de présenter la règle de Bayes sous forme additive : il faut le même poids de témoignage (weight of evidence) pour faire passer un évènement d'une plausibilité de -40 dB (10-4) à -30 dB (10-3) que pour le faire passer de -10 dB (0, 1) à 0 dB (0, 5), ce qui n'était pas évident en gardant la représentation en probabilités. La table suivante présente quelques équivalences :

Table d'équivalence
Probabilité Évidence (dB) Évidence (bits)
0, 0001 -40, 0 -13, 3
0.0010 -30, 0 -10, 0
0, 0100 -20, 0 -6, 6
0, 1000 -9, 5 -3, 2
0, 2000 -6, 0 -2, 0
0, 3000 -3, 7 -1, 2
0, 4000 -1, 8 -0, 6
0, 5000 0, 0 0, 0
0, 6000 1, 8 0, 6
0, 7000 3, 7 1, 2
0, 8000 6.0 2.0
0, 9000 9, 5 3, 2
0, 9900 20, 0 6, 6
0, 9990 30, 0 10, 0
0, 9999 40, 0 13, 3

Ev est une abréviation pour weight of evidence, quelquefois traduit en français par le mot évidence ; la formulation la plus conforme à l'expression anglaise d'origine serait le mot à mot poids de témoignage, mais par une coïncidence amusante «évidence» se montre particulièrement approprié en français pour cet usage précis.

C'est peu après les publications de Jeffreys qu'on découvrit qu'Alan Turing avait déjà travaillé sur cette question en nommant les quantités correspondantes log-odds dans ses travaux personnels.

Comparaison avec la statistique classique

Différence d'esprit

Une différence entre l'inférence bayésienne et les statistiques classiques, dites aussi fréquentistes, indiquée par Myron Tribus, est que

Les bayésiens font par conséquent le choix de modéliser leurs attentes en début de processus (quitte à réviser ce premier jugement à l'aune de l'expérience au fur et à mesure des observations), alors que les statisticiens classiques se fixaient a priori une méthode et une hypothèse arbitraires et ne traitaient les données qu'ensuite (ce qui avait tout de même le mérite de bien alléger les calculs).

Les méthodes bayésiennes, parce qu'elles n'exigeaient pas qu'on se fixe d'hypothèse préalable, ont ouvert la voie au data mining automatique; il n'y a en effet plus lieu avec elles d'avoir recours à une intuition humaine préalable pour imaginer des hypothèses avant de pouvoir commencer à travailler.

Lorsque utiliser l'une ou l'autre ?

Les deux approches se complètent, la statistique étant généralement préférable quand les informations sont abondantes et d'un faible coût de collecte, la bayésienne dans le cas où elles sont rares et/ou onéreuses à rassembler. En cas de grande abondance de données, les résultats sont asymptotiquement les mêmes dans chaque méthode, la bayésienne étant simplement plus coûteuse en calcul. Par contre, la bayésienne sert à traiter des cas où la statistique ne disposerait pas suffisamment de données pour qu'on puisse en appliquer les théorèmes limites.

Le psi-test bayésien (qui est utilisé pour déterminer la plausibilité d'une distribution comparé à des observations) est asymptotiquement convergent avec le χ² des statistiques classiques à mesure que le nombre d'observations devient grand. Le choix apparemment arbitraire d'une distance euclidienne dans le χ² est ainsi idéalement justifié a posteriori par le raisonnement bayésien (source : Myron Tribus, op. cit. )

Exemples d'inférence bayésienne : d'où vient ce biscuit ?

Imaginons deux boîtes de biscuits.

On choisit les yeux fermés une boîte au hasard, puis dans cette boîte un biscuit au hasard. Il se trouve être au chocolat. De quelle boîte a-t-il le plus de chances d'être issu, et avec quelle probabilité ? Intuitivement, on se doute que la boîte A a plus de chances d'être la bonne, mais de combien ?

La réponse exacte est donnée par le théorème de Bayes :

Notons HA la proposition «le gâteau vient de la boîte A» et HB la proposition «le gâteau vient de la boîte B».

Si quand on a les yeux bandés les boîtes ne se distinguent que par leur nom, nous avons P (HA) = P (HB), et la somme fait 1, puisque nous avons bien choisi une boîte, soit une probabilité de 0, 5 pour chaque proposition.

Notons D l'événement désigné par la phrase «le gâteau est au chocolat». Connaissant le contenu des boîtes, nous savons que :

Note : «P (A | B)» se dit «la probabilité de A sachant B».

Résolution

La formule de Bayes nous donne donc :


\begin{matrix} P(H_A | D) &=& \frac{P(H_A) \cdot P(D | H_A)}{P(H_A) \cdot P(D | H_A) + P(H_B) \cdot P(D | H_B)} \\  \\  \ & =& \frac{0,5 \times 0,75}{0,5 \times 0,75 + 0,5 \times 0,5} \\  \\  \ & =& 0,6 \end{matrix}


P (HA|D) représente la probabilité d'avoir choisi la boîte A sachant que le gâteau est au chocolat.


Avant de regarder le gâteau, notre probabilité d'avoir choisi la boîte A était P (HA), soit 0, 5.

Après l'avoir regardé, nous révisons cette probabilité à P (HA|D), qui est 0, 6 (1, 76 dB ou 0, 53 bit).

L'observation nous a par conséquent apporté 1, 76 dB (0, 53 bit).

Et puisque P (HA|D) + P (HB|D) = 1 (pas d'autre possibilité que d'avoir choisi la boîte A ou la boîte B sachant que le gâteau est au chocolat), la probabilité d'avoir choisi la boîte B sachant que le gâteau est au chocolat est par conséquent de 1 - 0, 6 = 0, 4

Si nous imposons une probabilité a priori quelconque de suspecter une boîte spécifique plutôt que l'autre, le même calcul effectué avec cette probabilité a priori apporte aussi 0, 53 bit. C'est là une manifestation de la régle de cohérence qui formait l'un des desiderata de Cox.

Références

Enseignement de l'outil

Utilisation de l'outil

Les ouvrages relatifs à l'utilisation sont plus rares pour la raison suivante : on utilise les méthodes bayésiennes à l'endroit où l'information coûte cher à obtenir (prospection pétrolière, recherche de médicaments... ). Ce sont dans les deux cas cités des sociétés privées (pétroliers, laboratoires pharmaceutiques... ) qui les financent, et celles-ci n'ont pas vocation à donner à leurs concurrents des informations qui ont coûté cher à leurs actionnaires.

Cependant, des analyses bayéesiennes de problèmes concrets apparaissent dans la majorité des numéros des grands journaux de statistiques, comme Journal of the Royal Statistical Society, Journal of the American Statistical Association, Biometrika, Technometrics ou Statistics in Medicine.

Annexe historique

L'usage de probabilités a priori a entraîné quelques reproches récurrents aux méthodes bayésiennes lors de leur introduction. On devait alors rappeler toujours les quatre points suivants :

  1. L'effet de la distribution a priori s'estompe à mesure que les observations sont prises en compte
  2. Il existe des lois impersonnelles, comme la maximisation d'entropie ou l'invariance de groupe indiquant l'unique distribution envisageable sans ajouter d'information propre à l'expérimentateur.
  3. Les probabilités a priori sont fréquemment dans d'autres méthodes utilisées inconsciemment (critère de Wald, critère du minimax... )
  4. Comme pour tout autre modèle, les effets de différents choix a priori peuvent être reconnus de front.

Ces méthodes sont actuellement passées dans les mœurs.

Voir aussi

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Inf%C3%A9rence_bay%C3%A9sienne.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu