Niveau école ingénieur

Mystere de l'information de fisher

Posté par
toureissa 29-01-23 à 09:47

Bonjour à tous,

J'ai toujours envie de comprendre la formule de l'information de Fisher, mais je n'ai pas encore atteint le but.
Sur Wikipédia, la recherche m'a renvoyer sur l'entropie de Shannon dont j'ai bien compris. J'ai compris sur ce dernier que, lorsqu'on a une source d'information et un récepteur de cet information. L'entropie mesure la quantité d'information nécessaire (manquante) qu'il faut pour que le récepteur puisse déterminer sans ambiguïté  ce que la source émet. Ainsi lorsqu'une source émet toujours le meme symbole, il est claire qu'il faut zero(0) informations necessaire(manquantes) pour determiner sans ambiguité ce que la source emet. Ainsi l'enthropie est nulle. Mais si la souce emet par exemple deux symbole avec la meme proba il est claire qu'il ya confusion( la recepteur reste totalement confus de ce que va emettre la source), il lui faut 100% d'informations supplementaire (manquante) pour determiner sans ambiguité ce que va emettre la source. Ce ont des exemples de cas extreme. Ensuite dans le deuxieme exemple si on attribue plus de proba a un symbole, il est claire le recepteur va avoir tendence a pencher vers ce symbole (le predire) et donc l'enthropie dimunie.
Lorsqu'o dispose de N symbole distincts, par dichotomie (en prenant le cas N=2^n, puis generaliser) on trouve que le nombre de question (a reponse oui/non) que le recepteur doit poser a l'emetteur pour determiner sans ambiguité la valeur  qu'emet la source est n=log2(N).

De là j'ai compris l'intervention de log dans la quantification de l'information qu'emet une source.

Cependant, concernant l'information de fisher je n'y parvient pas a savoir pourquoi on derive le log par "theta" qui esst le parametre. Mais je me suis donné une intuition, en me disant que c'est parce qu'on cherche uniquement l'information relatif a theta meme si je ne vois pas le lien entre  "information relatif à theta" et "derivé le log par rapport a theta".

Le second point est que je ne comprend pas  le fais d'élever cette dérivée au carré.

Merci d'avance !

Posté par re : Mystere de l'information de fisher 29-01-23 à 12:58

Il y a des petites choses à clarifier avant. Les statisticiens ont un but, c'est à partir d'expériences (indépendantes et successives) suivant une loi de probabilité inconnue $\mu$ , de trouver une loi de probabilité concrète $P$ qui approche $\mu$ de façon satisfaisante.

Les statisticiens ne procèdent pas totalement au hasard. D'abord, ils observent les données, font des histogrammes, etc. Partant de là, ils réduisent les possibilités et se disent "tiens, ça ça a une bonne tête de loi normale, mais pour quels paramètres ?".

Ce faisant, ils se donnent une famille $\Theta$ de paramètres (réels ou vectoriels), qui indexe une famille $\{P_\theta, \theta\in\Theta\}$ de lois de probabilités. Le but est de trouver le $\theta\in\Theta$ tel que $P_\theta$ soit la plus fidèle possible à la vraie loi $\mu$ , par définition inconnue.
En règle générale, le but est de modéliser par des lois simples, du type loi Normale, loi exponentielle, Bernoulli, etc, donc les lois $P_\theta$ sont à densité, qu'on nommera $f_\theta$ . Presque à chaque fois, les lois sont les mêmes et ne diffèrent que par leurs paramètres. En particulier elles ont un support commun.

Une telle formulation mène n'importe quel mathématicien à essayer de se placer dans le cadre d'une minimisation ou maximisation de fonction. Parce que ça, on sait bien faire, en cherchant les zéros de la dérivée.

Les staticiens vont donc définir pour chaque loi $P_\theta$ une fonction $L_{x_1,\cdots,x_n}$ définie sur $\Theta$ par $L_{x_1,\cdots,x_n}(\theta) = f_\theta(x_1)\times\cdots\times f_\theta(x_n)$ , à valeurs dans $[0,1]$ . S'il n'y a pas d'ambiguité, ils notent simplement $L$ au lieu de $L_{x_1,\cdots,x_n}$ .
Je n'ai pas encore dit ce que sont les $x_i$ : ce sont simplement les résultats de n tirages successifs aléatoires selon la loi $\mu$ inconnue. Ce réels/vecteurs sont fixés. Ce sont les données à disposition du statisticien.

On veut maximiser L parce que le point $\hat{\theta}$ (quand il existe) où L atteint son maximum global est très vraisemblablement le point où tous les $f_\theta(x_i)$ ont des grosses valeurs. Si un paramètre $\theta$ ne convient pas pour modéliser la loi $\mu$ alors il va y avoir un $f_\theta(x_i)$ proche de 0 et donc la valeur du produit va s'effonder.
Si cela peut t'aider à voir pourquoi, souviens-toi que dans le cas d'une loi discrète, la densité $f_\theta(x)$ n'est rien d'autre que $P_\theta(x)$ , i.e $P(X = x)$ quand X est de loi $P_\theta$ .
Il est évident que
1) plus n est grand, et plus cette fonction L est adaptée (gros dataset : beaucoup de données)
2) L est à valeurs positives et le log est strictement croissant. Donc maximiser L ou $l = log\circ L$ revient au même

Tu préfères dériver un produit de n termes, ou une somme de n logarithmes ? Voilà l'intérêt principal de chercher à maximiser $l$ à la place de L, les calculs sont bien plus simples !

Mais revenons à nos moutons. L est appelée la fonction de vraisemblance. $l$ s'appelle la log-vraisemblance.
Le $\hat{\theta}$ optimal (quand il existe) est généralement tel que $L'(\hat{\theta}) = 0$ , et est appelé le maximum de vraisemblance (ou de log-vraisemblance).

Sachant cela, la mission du statisticien se trouve grandement simplifiée. Pour approximer $\mu$ , il lui suffit de construire un estimateur du maximum de (log-)vraisemblance, et de sélectionner une loi $P_\theta$ avec un $\theta$ le plus proche possible de $\hat{\theta}$ et ça fera l'affaire. Mais à quel point cette loi fait-elle l'affaire, en fait ?

Si on a trouvé un paramètre $\hat{\theta}$ tel que $P_\theta$ colle bien aux données (les $x_i$ ), comment cela se généralise-t-il à n'importe quelles données issues de la loi $\mu$ ?

Si on prend $X \sim \mu$ , et qu'on note $l(\theta,\cdot) = \log\circ f_{\theta}(\cdot)$

$\begin{array}{lcl} \\ E(\dfrac{dl}{d\theta}(\hat{\theta}, X) | \hat{\theta}) &=& \int \dfrac{dl}{d\theta}(\hat{\theta},x) \mu(dx) \\ &=& \int \dfrac{d(\log\circ f_{\theta})}{d\theta}(\hat{\theta},x)\mu(dx) \\ &=& \int \dfrac{ \dfrac{df_{\theta}}{d\theta}(\hat{\theta},x) }{ f_{\hat{\theta}}(x) } \mu(dx) \\ \end{array}$ .

Maintenant (il faut l'écrire plus rigoureusement, mais ça fait déjà un beau pavé là)
si $\mu(dx) = f(x)dx$ et $f_{\hat{\theta}}$ est "proche" de f alors le rapport des deux est proche de 1 et donc notre intégrale est proche de $\int \dfrac{df_\theta}{d\theta}(\hat{\theta}, x)dx = \dfrac{d}{d\theta} \int f_{\hat{\theta}}(x)dx = \dfrac{d}{d\theta} 1 = 0$ presque-sûrement.
C'est peu rigoureux (en particulier parce que la convergence presque sûre n'est pas métrisable) mais ça veut dire que si $P_\theta$ est très proche de $\mu$ alors $f_\theta(X)$ est très proche de 1. Je n'entre pas plus dans les détails. Pour que tout fonctionne bien, il faut des hypothèses sur la façon dont les lois $P_\theta$ varient avec $\theta$ , notamment.

Le niveau suivant d'étude, c'est de regarder non plus l'espérance conditionnelle, mais à quel point cette dernière est proche de zéro, pour savoir à quel point il faut que $\theta$ soit proche de $\hat{\theta}$ (et $P_\theta$ de $\mu$ ) pour être satisfait. Ca, ça s'appelle la variance et c'est ce qui explique pourquoi on se retrouve à calculer des carrés : Var(X) = E(X²) - E(X)² = E(X²) quand E(X) = 0

Il se trouve que l'information de Fischer est justement à quelques détails près la variance de dl/d\theta(X) avec les notations de notre petit calcul

Posté par re : Mystere de l'information de fisher 29-01-23 à 13:46

Merci beaucoup, comme vous expliquez bien !
J'ai bien compris. l'EMV étant une variable aléatoire fluctue autour de la valeur de thêta qui maximise la vraisemblance en fonction des l'observations issues de l'échantillon. C'est pourquoi on observe la variabilité de thêta autour de l'EMV.

Posté par re : Mystere de l'information de fisher 29-01-23 à 13:57

Je viens de voir une vidéo où on l'explique de la manière suivante:
On trace la courbe de la log de vraisemblance. Si la courbe est trop aplatie la variabilité de thêta ne l'éloigne pas trop du maximum. Par contre si elle est pique, une petite variation de theta nous eloige du maximum. Cependant , l'aplatissement d'une courbe est lié aux moments d'ordre 4 et ici on pris le moment d'ordre 2 ?
Pouvez-vous m'expliquer plus claire dans ce cas.

$Mystere de l\'information de fisher$

Posté par re : Mystere de l'information de fisher 29-01-23 à 14:21

Un aplatissement de la courbe, ça veut seulement dire que la fonction ne varie pas beaucoup si on perturbe theta dans une directetion. Ici c'et un aplatissement en 2D donc par "direction" on veut simplement dire ajouter ou retirer un petit réel à $\theta$ .
Mais si $\theta$ appartient à $\R^2$ par exemple et si tu as une surface dans $\R^3$ avec un plat ça veut dire que ton estimation (en cote) reste tout aussi valable si tu perturbes $\theta$ suivant l'axe des abscisses ou celui des ordonnées.

Si tu es sur un pic, ça veut dire que tous les $f_\theta(x_i)$ travaillent de concert à l'établissement d'une valeur, et que si jamais tu modifies un tout petit peu $\theta$ alors tu auras un ou plusieurs $f_{\theta'}(x_i)$ qui vont devenir très faibles et faire chuter la valeur du produit, sans que cela ne soit compensé par une augmentation de $f_{\theta'}(x_j)$ pour un autre $j\neq i$ par rapport à $f_\theta(x_j)$ .

Ce raisonnement est pertinent parce que les $f(x_i)$ sont à valeurs dans [0,1]. Admettons qu'on passe de $\theta$ à $\theta'$ et que tous les f(x_k) restent inchangés sauf $f(x_i)$ et $f(x_j)$
* $f(x_i)$ passe de 0.75 à 0.60
* $f(x_j)$ était à 0.85 et vaut maintenant h

Pour que le produit ne change pas de valeur, il faut que $f(x_i)f(x_j)$ ne change pas de valeur. Ca veut dire $0.75 \times 0.85 = 0.60 h$ , i.e $h = 0.75\times 0.85 / 0.60 = 1.0625$ . C'est impossible, cette valeur est plus grande que 1!

Si $f(x_i)$ chute peu, alors cette chute est compensable par une (ou plusieurs) augmentation des autres $f(x_j)$ .
Mais si l'un (au moins) des $f(x_i)$ chute trop vite (ici, la chute est de 0.15, soit 20%) alors les compensations devront être bien plus importantes que ce dont a chuté $f(x_i)$ , avec en plus la contrainte de ne pas pouvoir passer au dessus de 1.

-------

Pour cette histoire de moments d'ordre 4, je pense que tu fais référence au kurtosis mais c'est un autre sujet qui n'est pas spécifiquement lié à notre histoire d'information de Fischer