Inscription / Connexion Nouveau Sujet
Niveau école ingénieur
Partager :

Mystere de l'information de fisher

Posté par
toureissa
29-01-23 à 09:47

Bonjour à tous,

J'ai toujours envie de comprendre la formule de l'information de Fisher, mais je n'ai pas encore atteint le but.
Sur Wikipédia, la recherche m'a renvoyer sur l'entropie de Shannon dont j'ai bien compris. J'ai compris sur ce dernier que, lorsqu'on a une source d'information et un récepteur de cet information. L'entropie mesure la quantité d'information nécessaire (manquante) qu'il faut pour que le récepteur puisse déterminer sans ambiguïté  ce que la source émet. Ainsi lorsqu'une source émet toujours le meme symbole, il est claire qu'il faut zero(0) informations necessaire(manquantes) pour determiner sans ambiguité ce que la source emet. Ainsi l'enthropie est nulle. Mais si la souce emet par exemple deux symbole avec la meme proba il est claire qu'il ya confusion( la recepteur reste totalement confus de ce que va emettre la source), il lui faut 100% d'informations supplementaire (manquante) pour determiner sans ambiguité ce que va emettre la source. Ce ont des exemples de cas extreme. Ensuite dans le deuxieme exemple si on attribue plus de proba a un symbole, il est claire le recepteur va avoir tendence a pencher vers ce symbole (le predire) et donc l'enthropie dimunie.
Lorsqu'o dispose de N symbole distincts, par dichotomie (en prenant le cas N=2^n, puis generaliser) on trouve que le nombre de question (a reponse oui/non) que le recepteur doit poser a l'emetteur pour determiner sans ambiguité la valeur  qu'emet la source est n=log2(N).

De là j'ai compris l'intervention de log dans la quantification de l'information qu'emet une source.

Cependant, concernant l'information de fisher je n'y parvient pas a savoir pourquoi on derive le log par "theta" qui esst le parametre. Mais je me suis donné une intuition, en me disant que c'est parce qu'on cherche uniquement l'information relatif a theta meme si je ne vois pas le lien entre  "information relatif à theta" et "derivé le log par rapport a theta".

Le second point est que je ne comprend pas  le fais d'élever cette dérivée au carré.

Merci d'avance !

Posté par
Ulmiere
re : Mystere de l'information de fisher 29-01-23 à 12:58

Il y a des petites choses à clarifier avant. Les statisticiens ont un but, c'est à partir d'expériences (indépendantes et successives) suivant une loi de probabilité inconnue \mu, de trouver une loi de probabilité concrète P qui approche \mu de façon satisfaisante.

Les statisticiens ne procèdent pas totalement au hasard. D'abord, ils observent les données, font des histogrammes, etc. Partant de là, ils réduisent les possibilités et se disent "tiens, ça ça a une bonne tête de loi normale, mais pour quels paramètres ?".

Ce faisant, ils se donnent une famille \Theta de paramètres (réels ou vectoriels), qui indexe une famille \{P_\theta, \theta\in\Theta\} de lois de probabilités. Le but est de trouver le \theta\in\Theta tel que P_\theta soit la plus fidèle possible à la vraie loi \mu, par définition inconnue.
En règle générale, le but est de modéliser par des lois simples, du type loi Normale, loi exponentielle, Bernoulli, etc, donc les lois P_\theta sont à densité, qu'on nommera f_\theta. Presque à chaque fois, les lois sont les mêmes et ne diffèrent que par leurs paramètres. En particulier elles ont un support commun.

Une telle formulation mène n'importe quel mathématicien à essayer de se placer dans le cadre d'une minimisation ou maximisation de fonction. Parce que ça, on sait bien faire, en cherchant les zéros de la dérivée.

Les staticiens vont donc définir pour chaque loi P_\theta une fonction L_{x_1,\cdots,x_n} définie sur \Theta par L_{x_1,\cdots,x_n}(\theta) = f_\theta(x_1)\times\cdots\times f_\theta(x_n), à valeurs dans [0,1]. S'il n'y a pas d'ambiguité, ils notent simplement L au lieu de L_{x_1,\cdots,x_n}.
Je n'ai pas encore dit ce que sont les x_i : ce sont simplement les résultats de n tirages successifs aléatoires selon la loi \mu inconnue. Ce réels/vecteurs sont fixés. Ce sont les données à disposition du statisticien.

On veut maximiser L parce que le point \hat{\theta} (quand il existe) où L atteint son maximum global est très vraisemblablement le point où tous les f_\theta(x_i) ont des grosses valeurs. Si un paramètre \theta ne convient pas pour modéliser la loi \mu alors il va y avoir un f_\theta(x_i) proche de 0 et donc la valeur du produit va s'effonder.
Si cela peut t'aider à voir pourquoi, souviens-toi que dans le cas d'une loi discrète, la densité f_\theta(x) n'est rien d'autre que P_\theta(x), i.e P(X = x) quand X est de loi P_\theta.
Il est évident que
1) plus n est grand, et plus cette fonction L est adaptée (gros dataset : beaucoup de données)
2) L est à valeurs positives et le log est strictement croissant. Donc maximiser L ou l = log\circ L revient au même

Tu préfères dériver un produit de n termes, ou une somme de n logarithmes ? Voilà l'intérêt principal de chercher à maximiser l à la place de L, les calculs sont bien plus simples !

Mais revenons à nos moutons. L est appelée la fonction de vraisemblance. l s'appelle la log-vraisemblance.
Le \hat{\theta} optimal (quand il existe) est généralement tel que L'(\hat{\theta}) = 0, et est appelé le maximum de vraisemblance (ou de log-vraisemblance).


Sachant cela, la mission du statisticien se trouve grandement simplifiée. Pour approximer \mu, il lui suffit de construire un estimateur du maximum de (log-)vraisemblance, et de sélectionner une loi P_\theta avec un \theta le plus proche possible de \hat{\theta} et ça fera l'affaire. Mais à quel point cette loi fait-elle l'affaire, en fait ?

Si on a trouvé un paramètre \hat{\theta} tel que P_\theta colle bien aux données (les x_i), comment cela se généralise-t-il à n'importe quelles données issues de la loi \mu ?

Si on prend X \sim \mu, et qu'on note l(\theta,\cdot) = \log\circ f_{\theta}(\cdot)

\begin{array}{lcl}
 \\ E(\dfrac{dl}{d\theta}(\hat{\theta}, X) | \hat{\theta}) &=& \int \dfrac{dl}{d\theta}(\hat{\theta},x) \mu(dx)
 \\ &=&  \int \dfrac{d(\log\circ f_{\theta})}{d\theta}(\hat{\theta},x)\mu(dx)
 \\ &=& \int \dfrac{ \dfrac{df_{\theta}}{d\theta}(\hat{\theta},x) }{ f_{\hat{\theta}}(x) } \mu(dx)
 \\ \end{array}.

Maintenant (il faut l'écrire plus rigoureusement, mais ça fait déjà un beau pavé là)
si \mu(dx) = f(x)dx et f_{\hat{\theta}} est "proche" de f alors le rapport des deux est proche de 1 et donc notre intégrale est proche de \int \dfrac{df_\theta}{d\theta}(\hat{\theta}, x)dx = \dfrac{d}{d\theta} \int f_{\hat{\theta}}(x)dx = \dfrac{d}{d\theta} 1 = 0 presque-sûrement.
C'est peu rigoureux (en particulier parce que la convergence presque sûre n'est pas métrisable) mais ça veut dire que si P_\theta est très proche de \mu alors f_\theta(X) est très proche de 1. Je n'entre pas plus dans les détails. Pour que tout fonctionne bien, il faut des hypothèses sur la façon dont les lois P_\theta varient avec \theta, notamment.


Le niveau suivant d'étude, c'est de regarder non plus l'espérance conditionnelle, mais à quel point cette dernière est proche de zéro, pour savoir à quel point il faut que \theta soit proche de \hat{\theta} (et P_\theta de \mu) pour être satisfait. Ca, ça s'appelle la variance et c'est ce qui explique pourquoi on se retrouve à calculer des carrés : Var(X) = E(X²) - E(X)² = E(X²) quand E(X) = 0

Il se trouve que l'information de Fischer est justement à quelques détails près la variance de dl/d\theta(X) avec les notations de notre petit calcul

Posté par
toureissa
re : Mystere de l'information de fisher 29-01-23 à 13:46

Merci beaucoup, comme  vous expliquez bien !
J'ai bien compris. l'EMV étant une variable aléatoire fluctue autour de la valeur de thêta qui maximise la vraisemblance en fonction des l'observations issues de l'échantillon. C'est pourquoi on observe la variabilité de thêta autour de l'EMV.

Posté par
toureissa
re : Mystere de l'information de fisher 29-01-23 à 13:57

Je viens de voir une vidéo où on l'explique de la manière suivante:
On trace la courbe de la log de vraisemblance. Si la courbe est trop aplatie la variabilité de thêta ne l'éloigne pas trop du maximum. Par contre si elle est pique, une petite variation de theta nous eloige du maximum. Cependant , l'aplatissement d'une courbe est lié aux moments d'ordre 4 et ici on pris le moment d'ordre 2 ?
Pouvez-vous m'expliquer plus claire dans ce cas.

Mystere de l\'information de fisher

Posté par
Ulmiere
re : Mystere de l'information de fisher 29-01-23 à 14:21

Un aplatissement de la courbe, ça veut seulement dire que la fonction ne varie pas beaucoup si on perturbe theta dans une directetion. Ici c'et un aplatissement en 2D donc par "direction" on veut simplement dire ajouter ou retirer un petit réel à \theta.
Mais si \theta appartient à \R^2 par exemple et si tu as une surface dans \R^3 avec un plat ça veut dire que ton estimation (en cote) reste tout aussi valable si tu perturbes \theta suivant l'axe des abscisses ou celui des ordonnées.

Si tu es sur un pic, ça veut dire que tous les f_\theta(x_i) travaillent de concert à l'établissement d'une valeur, et que si jamais tu modifies un tout petit peu \theta alors tu auras un ou plusieurs f_{\theta'}(x_i) qui vont devenir très faibles et faire chuter la valeur du produit, sans que cela ne soit compensé par une augmentation de f_{\theta'}(x_j) pour un autre j\neq i par rapport à f_\theta(x_j).

Ce raisonnement est pertinent parce que les f(x_i) sont à valeurs dans [0,1]. Admettons qu'on passe de \theta à \theta' et que tous les f(x_k) restent inchangés sauf f(x_i) et f(x_j)
* f(x_i) passe de 0.75 à 0.60
* f(x_j) était à 0.85 et vaut maintenant h

Pour que le produit ne change pas de valeur, il faut que f(x_i)f(x_j) ne change pas de valeur. Ca veut dire 0.75 \times 0.85 = 0.60 h, i.e h = 0.75\times 0.85 / 0.60 = 1.0625. C'est impossible, cette valeur est plus grande que 1!

Si f(x_i) chute peu, alors cette chute est compensable par une (ou plusieurs) augmentation des autres f(x_j).
Mais si l'un (au moins) des f(x_i) chute trop vite (ici, la chute est de 0.15, soit 20%) alors les compensations devront être bien plus importantes que ce dont a chuté f(x_i), avec en plus la contrainte de ne pas pouvoir passer au dessus de 1.


-------


Pour cette histoire de moments d'ordre 4, je pense que tu fais référence au kurtosis mais c'est un autre sujet qui n'est pas spécifiquement lié à notre histoire d'information de Fischer

Posté par
toureissa
re : Mystere de l'information de fisher 30-01-23 à 08:09

Merci infiniment !

Posté par
Ulmiere
re : Mystere de l'information de fisher 30-01-23 à 13:13



Vous devez être membre accéder à ce service...

Pas encore inscrit ?

1 compte par personne, multi-compte interdit !

Ou identifiez-vous :


Rester sur la page

Inscription gratuite

Fiches en rapport

parmi 1675 fiches de maths

Désolé, votre version d'Internet Explorer est plus que périmée ! Merci de le mettre à jour ou de télécharger Firefox ou Google Chrome pour utiliser le site. Votre ordinateur vous remerciera !