Théorème de Cox-Jaynes

Le théorème de Cox-Jaynes est une codification des processus d'apprentissage à partir d'un certain ensemble de postulats.



Catégories :

Probabilités - Théorème d'informatique - Apprentissage automatique


Le théorème de Cox-Jaynes (1946) est une codification des processus d'apprentissage à partir d'un certain ensemble de postulats. Cette codification se trouve coïncider au terme de ces considérations avec celle - historiquement d'origine toute différente - de probabilité. Il tient son nom du physicien Richard Cox qui en a formulé la version originale.

Elle induit par conséquent une interprétation «logique» des probabilités indépendante de celle de fréquence. Elle apporte aussi une base rationnelle au mécanisme d'induction logique, et par conséquent de l'apprentissage par des machines. Qui plus est , le théorème invalide - dans les conditions des postulats - toute autre forme de représentation de la connaissance comme biaisée. Il s'agit par conséquent d'un résultat extrêmement fort. (source : Myron Tribus, Décisions rationnelles dans l'incertain, Masson, 1974)

Les résultats de Cox n'avaient touché qu'une audience réduite avant qu'E. T. Jaynes ne redécouvre ce théorème et n'en défriche une série d'implications pour les méthodes bayésiennes, et Irving John Good pour l'intelligence artificielle.

Problèmes de validité de la démarche inductive avant Cox

Réserves de Bertrand Russell

Dans le chapitre «La science est-elle superstitieuse ?» de son ouvrage Science et religion, Bertrand Russell décrit le problème - il ose même le mot de scandale - posé par l'induction :

Paradoxe de Hempel

Ce paradoxe visait à montrer une faille dans le mécanisme d'induction, qui imposait que le domaine de validité de ce dernier fût précisé de façon plus rigoureuse : le contexte de ce dont on parle doit être toujours mentionné. Ainsi le comptage des oiseaux à la fois non-blancs et non-corbeaux dans une chambre ne renseigne pas sur la probabilité que l'ensemble des corbeaux soient blancs, mais que l'ensemble des corbeaux soient blancs dans cette chambre - affirmation idéalement exacte lorsqu'il n'y a aucun corbeau dans la chambre, en vertu de la relation (qui définit l'implication)

(p \Rightarrow q) \Leftrightarrow ((p \wedge q) \vee \neg p )

Détails dans l'article Paradoxe de Hempel, dit de l'ornithologie en chambre.

Les «desiderata» (axiomes)

Cox cherche à poser les desiderata souhaitables pour un robot qui raisonnerait selon une logique inductive :

Les degrés de plausibilité sont représentés par des nombres réels

La convention adoptée, arbitrairement, est que des plausibilités plus grandes seront représentées par des nombres plus grands.

Les règles d'inférence ne doivent pas contredire les règles d'inférence communes

En d'autres termes, ce qui nous paraît évident ne doit pas être contredit par le modèle (à la différence de ce qui se passe avec le paradoxe de Condorcet).

Exemple :


Pour les cinq sections suivantes, l'ensemble des formules sont ici :


Règle de cohérence

Si une conclusion peut être obtenue par plus d'un moyen, alors tous ces moyens doivent bien donner le même résultat.

Cette règle élimine du champ d'examen les heuristiques multiples par conséquent qu'elles pourraient contenir entre elles des contradictions (comme le font par exemple quelquefois les critères de Wald et du minimax en théorie des jeux).

Règle d'honnêteté

Le robot doit toujours prendre en compte la totalité de l'information qui lui est apportée. Il ne doit pas en ignorer délibérément une partie et fonder ses conclusions sur le reste. En d'autres termes, le robot doit être complètement non idéologique, neutre de point de vue.

Règle de reproductibilité

Le robot représente des états de connaissance équivalents par des plausibilités équivalentes. Si deux problèmes sont semblables à un simple étiquetage de propositions près, le robot doit assigner les mêmes plausibilités dans les deux cas.

Cela veut dire surtout que des propositions seront reconnues a priori comme de plausibilité équivalente lorsqu'elle s ne se distinguent que par leur nom - ce qui n'arrive guère que dans des cas particulièrement spécifiques, comme une pièce ou un dé ayant satisfait à des critères de non-pipage.

Les règles quantitatives (lois de composition interne)

La règle de somme

Sans rentrer dans les équations, l'idée est que quand deux plausibilités du même état se composent, la plausibilité composée est obligatoirement égale ou supérieure à la plus grande des deux[1].

La règle de produit

Il s'agit ici du cas inverse : lorsque deux plausibilités doivent toutes deux être vérifiées pour qu'un état puisse exister, cet état ne peut avoir de plausibilité plus grande que la plus petite des deux précédentes[2].

Les résultats

Exemple

La notation d'I. J Good (weight of evidence)

Alan Turing avait fait remarquer en son temps que l'expression des probabilités était bien plus facile à manier en remplaçant une probabilité p variant de 0 à 1 par l'expression ln (p/ (1-p) ) variant entre moins l'infini et plus l'infini. Surtout, sous cette forme, un apport d'information par la règle de Bayes se traduit par l'ajout d'une quantité algébrique unique à cette expression (que Turing nommait log-odd), cela quelle que soit la probabilité a priori de départ avant l'observation.

en décibels (dB)

Irving John Good reprit cette idée, mais pour favoriser le travail avec ces nouvelles quantités :

Il appela la mesure correspondante, W = 10 log10 (p/ (1-p) ), weight of evidence parce qu'elle permettait de «peser» le témoignage des faits suivant les attentes - manifestées par des probabilités «subjectives» antérieures à l'observation - de façon indépendante de ces attentes[3].

en bits

Les évidences sont quelquefois exprimées aussi en bits, surtout dans les tests de validité de lois scalantes. Lorsque une loi comme la loi de Zipf ou de Mandelbrot s'ajuste en effet mieux aux données qu'une autre loi ne nécessitant pas de tri préalable, il faut en effet tenir compte du fait que ce tri a représenté un apport d'information de l'ordre de N log2N et que c'est peut-être lui seul qui est responsable de ce meilleur ajustement ! Si le gain d'évidence apporté par le tri représente moins de bits que celui qu'a coûté le tri, cela veut dire que l'information apportée par la considération d'une loi scalante est en fait nulle.

Conséquences du théorème

Unification de l'algèbre de Boole et de la théorie des probabilités

On remarque que l'algèbre de Boole est isomorphe à la théorie des probabilités réduite aux seules valeurs 0 et 1.

Cette considération conduisit à l'invention dans les années 1970 des calculateurs stochastiques promus par la société Alsthom (qui s'écrivait avec un h à l'époque) et qui entendaient combiner le faible coût des circuits de commutation avec la puissance de traitement des calculateurs analogiques. Quelques-uns furent réalisés à l'époque.

Abandon du paradigme «fréquentiste»

Bases rationnelles de l'apprentissage machine

Limitations importantes du théorème

Un paradoxe apparent

Chaque discipline possède ses mesures favorites : si la thermique s'occupe essentiellement de températures, la thermodynamique sera plus attachée à des mesures de quantité de chaleur, ou alors d'entropie. L'électrostatique s'intéresse plus aux tensions qu'aux intensités, alors que c'est l'inverse pour les courants faibles, et qu'en électrotechnique c'est davantage en termes de puissance qu'on aura tendance à raisonner. Selon sa discipline d'origine, chaque expérimentateur tendra à effectuer ses estimatiions sur les unités auxquelles il est habitué.

Dans le cas d'un montage électrique, un spécialiste d'électrotechnique fera peut-être une estimation de puissance dissipée (Ri²) tandis qu'un autre de courants faibles préférera estimer l'intensité elle-même (i). Si la convergence à terme des estimations est assurée dans les deux cas, elle ne se fera pas de la même façon, même avec des distributions a priori semblables, car l'espérance mathématique d'un carré n'est pas mathématiquement liée au carré d'une espérance. Il s'agit là de la principale pierre d'achoppement des méthodes bayésiennes.

Le rôle du langage (formatage)

Indépendamment des probabilités a priori que nous attribuons aux événements, nos estimations sont aussi en partie «formatées» par le langage et la «déformation professionnelle» qui s'y attachent. Concrètement, cela rappelle qu'il n'existe pas uniquement une, mais deux sources d'arbitraire dans les méthodes bayésiennes : celle, de mesure, qui entache les probabilités a priori choisies et celle, de méthode, qui correspond à notre représentation du problème. Par contre, l'arbitraire se limite à ces deux éléments, et les méthodes bayésiennes sont ensuite complètement impersonnelles.

Notes et références

  1. Le raisonnement plausible
  2. Les règles quantitatives
  3. Myron Tribus, Décisions rationnelles dans l'incertain, Traduction française de Jacques Pézier, Masson, 1974

Voir aussi

Liens externes

Recherche sur Amazon (livres) :



Ce texte est issu de l'encyclopédie Wikipedia. Vous pouvez consulter sa version originale dans cette encyclopédie à l'adresse http://fr.wikipedia.org/wiki/Th%C3%A9or%C3%A8me_de_Cox-Jaynes.
Voir la liste des contributeurs.
La version présentée ici à été extraite depuis cette source le 10/03/2010.
Ce texte est disponible sous les termes de la licence de documentation libre GNU (GFDL).
La liste des définitions proposées en tête de page est une sélection parmi les résultats obtenus à l'aide de la commande "define:" de Google.
Cette page fait partie du projet Wikibis.
Accueil Recherche Aller au contenuDébut page
ContactContact ImprimerImprimer liens d'évitement et raccourcis clavierAccessibilité
Aller au menu