Il y a des petites choses à clarifier avant. Les statisticiens ont un but, c'est à partir d'expériences (indépendantes et successives) suivant une loi de probabilité inconnue , de trouver une loi de probabilité concrète qui approche de façon satisfaisante.
Les statisticiens ne procèdent pas totalement au hasard. D'abord, ils observent les données, font des histogrammes, etc. Partant de là, ils réduisent les possibilités et se disent "tiens, ça ça a une bonne tête de loi normale, mais pour quels paramètres ?".
Ce faisant, ils se donnent une famille de paramètres (réels ou vectoriels), qui indexe une famille de lois de probabilités. Le but est de trouver le tel que soit la plus fidèle possible à la vraie loi , par définition inconnue.
En règle générale, le but est de modéliser par des lois simples, du type loi Normale, loi exponentielle, Bernoulli, etc, donc les lois sont à densité, qu'on nommera . Presque à chaque fois, les lois sont les mêmes et ne diffèrent que par leurs paramètres. En particulier elles ont un support commun.
Une telle formulation mène n'importe quel mathématicien à essayer de se placer dans le cadre d'une minimisation ou maximisation de fonction. Parce que ça, on sait bien faire, en cherchant les zéros de la dérivée.
Les staticiens vont donc définir pour chaque loi une fonction définie sur par , à valeurs dans . S'il n'y a pas d'ambiguité, ils notent simplement au lieu de .
Je n'ai pas encore dit ce que sont les : ce sont simplement les résultats de n tirages successifs aléatoires selon la loi inconnue. Ce réels/vecteurs sont fixés. Ce sont les données à disposition du statisticien.
On veut maximiser L parce que le point (quand il existe) où L atteint son maximum global est très vraisemblablement le point où tous les ont des grosses valeurs. Si un paramètre ne convient pas pour modéliser la loi alors il va y avoir un proche de 0 et donc la valeur du produit va s'effonder.
Si cela peut t'aider à voir pourquoi, souviens-toi que dans le cas d'une loi discrète, la densité n'est rien d'autre que , i.e quand X est de loi .
Il est évident que
1) plus n est grand, et plus cette fonction L est adaptée (gros dataset : beaucoup de données)
2) L est à valeurs positives et le log est strictement croissant. Donc maximiser L ou revient au même
Tu préfères dériver un produit de n termes, ou une somme de n logarithmes ? Voilà l'intérêt principal de chercher à maximiser à la place de L, les calculs sont bien plus simples !
Mais revenons à nos moutons. L est appelée la fonction de vraisemblance. s'appelle la log-vraisemblance.
Le optimal (quand il existe) est généralement tel que , et est appelé le maximum de vraisemblance (ou de log-vraisemblance).
Sachant cela, la mission du statisticien se trouve grandement simplifiée. Pour approximer , il lui suffit de construire un estimateur du maximum de (log-)vraisemblance, et de sélectionner une loi avec un le plus proche possible de et ça fera l'affaire. Mais à quel point cette loi fait-elle l'affaire, en fait ?
Si on a trouvé un paramètre tel que colle bien aux données (les ), comment cela se généralise-t-il à n'importe quelles données issues de la loi ?
Si on prend , et qu'on note
.
Maintenant (il faut l'écrire plus rigoureusement, mais ça fait déjà un beau pavé là)
si et est "proche" de f alors le rapport des deux est proche de 1 et donc notre intégrale est proche de presque-sûrement.
C'est peu rigoureux (en particulier parce que la convergence presque sûre n'est pas métrisable) mais ça veut dire que si est très proche de alors est très proche de 1. Je n'entre pas plus dans les détails. Pour que tout fonctionne bien, il faut des hypothèses sur la façon dont les lois varient avec , notamment.
Le niveau suivant d'étude, c'est de regarder non plus l'espérance conditionnelle, mais à quel point cette dernière est proche de zéro, pour savoir à quel point il faut que soit proche de (et de ) pour être satisfait. Ca, ça s'appelle la variance et c'est ce qui explique pourquoi on se retrouve à calculer des carrés : Var(X) = E(X²) - E(X)² = E(X²) quand E(X) = 0
Il se trouve que l'information de Fischer est justement à quelques détails près la variance de dl/d\theta(X) avec les notations de notre petit calcul