Fiche de mathématiques
> >

Espérance conditionnelle et application en modélisation

Partager :
agrégation : leçon 403 en option probabilité


0.Introduction



1) Filtrage de Kalman-Bucy

On dispose d'un mobile dont la trajectoire est régie par l'équation différentielle:
\frac{d}{dt}\begin{pmatrix}x(t)\\v(t)\end{pmatrix}=\begin{pmatrix}0&1\\-w^2&-\rho\end{pmatrix}\begin{pmatrix}x(t)\\v(t)\end{pmatrix}
Cependant le mobile est soumis à desperturbations V(t), et l'on ne dispose que de mesures discrètes portant sur la position du mobile:
Y(t)=GX(t)+W(t)W correpond au bruit perturbant l'appareil de mesure.
Finalement en discrétisant on obtient:
X_{n+1}=\begin{pmatrix}1&h\\-w^2h&1-\rho h\end{pmatrix}X_n+V_n
Y_n=\begin{pmatrix}1&0\end{pmatrix}X_n+W_n
Le but va être de trouver deux estimateurs, l'un permettant de prédire X_n à partir des n-1 premières observations, et l'autre d'estimer X_n à l'aide des n premières observations.


2) Standard téléphonique

On suppose que le temps d'attente à un standard téléphonique X suit une loi {\cal E}(\theta), \theta\in\mathbb{R}_+^* inconnue
On veut estimer g(\theta)=P_{\theta}(X_1>t) à partir de la connaissance du temps d'attente de n personnes.
On connait l'estimateur empirique \mu_n=\frac{1}{n}\displaystyle\sum_{i=1}^n\mathbb{1}_{X_i>t}, cependant on va chercher un estimateur qui soit optimal en ce sens qu'il sera de variance inférieure.


3) Sondage stratifié

On réalise un sondage, sur un échantillon représentatif de la population, à propos d'un referendum, et l'on classe les personnes interrogées selon 3 classes distinctes.
\begin{array}{|c|c|c|c|c|} \hline \mbox{Reponse} \setminus \mbox{Classe} & 1 & 2 & 3 & \mbox{Total}\\ \hline \mbox{Oui} & 94 & 120 & 80 & 294 \\ \hline \mbox{Total} & 200 & 300 & 100 & 600\\ \hline \end{array}
Soit X=\mathbb{1}_{\lbrace \mbox{ a repondu oui }\rbrace } et Y la classe de la personne.
On peut observer que si l'on se restreint a l'une des 3 classes l'espérance de X n'est plus la même.
E(X|Y=1)=P(X=1|Y=1)=0.47
On peut noter E(X|Y)=\displaystyle\sum_{i=1}^3E(X|Y=i)\mathbb{1}_{Y=i}.
Et plus généralement si X et Y sont deux variables aléatoires discrètes à valeurs respectives dans (x_i)_{i\in I} et (y_j)_{j\in J}.
E(X|Y)=\displaystyle\sum_{i\in I,j\in J}P(X=x_i|Y=y_j)x_i


Soit (\Omega,{\cal F},{\mathbf P}) un espace de probabilité.\cal G\subset F une sous tribu.





I.Espérance conditionnelle

Définition: Soit X\in L^2(\cal F), on appelle espérance conditionnelle de X sachant \cal G, la projection de X sur L^2(\cal G) et on la note E(X|\cal G)

Remarque:
  • L'espérance conditionnelle minimise E[(X-Y)^2] parmi les fonctions Y \cal G-mesurable.
  • L'espérance conditionnelle même si elle est considérée comme une variable aléatoire n'est en fait définie que presque surement.

Théorème: Soit X\in L^1, alors il existe Y une variable aléatoire \cal G-mesurable vérifiant: E(|Y|)<\infty et \forall G\in {\cal G} \displaystyle\int_{G}Yd P=\int_GXd P.
On note Y=E[X|\cal G]

Remarque: En particulier si Y est un représentant de l'espérance conditionnelle de X sachant \cal G, Y vérifie, E(Y)=E(X)

Propriété: Si (A_i)_{i\in {\mathbb{N}^*}} est une partition de \Omega, avec A_n\in \cal F et {\cal G}=\sigma(A_n,n\ge 1).Soit X\in L^1 alors E(X|{\cal G})=\displaystyle\sum_{i\in {\mathbb{N}}^*}E(X|A_i)\mathbb{1}_{A_i}.
De plus E(X|A_i)=\frac{E(X\mathbb{1}_{A_i})}{P(A_i)} si P(A_i)\neq 0 et peut être choisi arbitrairement dans le cas contraire.





II.Propriétés

Premiers résultats:
  • L'espérance conditionnelle possède les mêmes propriétes que l'espérance classique (linéarité, croissance monotone, lemme de Fatou, Cv dominé...)
  • Si X indépendante de \cal G alors E[X|\cal G]=E[X]
  • Si Y est \cal G-mesurable E[XY|\cal G])YE[X|\cal G] et en particulier E[Y|\cal G]=Y.

Exemple: Si (T_i)_{i\in \lbrace 1,...,n\rbrace } sont des va iid et T=\displaystyle\sum_{i=1}^nT_i, on peut montrer que E[T_1|T]=T/n et E[T|T_1]=(n-1)E[T_1]+T_1.

Proposition Si \cal H\subset\cal G\subset \cal F, alors E(X|{\cal H})=E(E(X|\cal G)|\cal H)p.s.

Proposition: (X_n) martingale associée à \cal G_n une filtration, alors à m fixé,
\forall n>m, E(X_n|\cal G_m)=X_m.
De plus n\rightarrow E(X_n) est constant.

Exemple: Urne de Polya, si X_k correspond a la proportion de boule blanche à la k-ème étape.
Sachant que X_0=\frac{b}{n+b}, on a (X_k) qui est une martingale et E(X_k)=E(X_0)=\frac{b}{n+b}





III.Filtre de Kalman-Bucy.



1) Vecteurs gaussiens

Définition: Si X=(X_1,X_2,...,X_n)^t et Y=(Y_1,..Y_m)^t sont deux vecteurs aléatoires on définit E(X|Y)=(E(X_1|Y),...,E(X_n|Y))^t.

Proposition: Si X et Y sont deux vecteurs gaussiens dans leur ensemble, de moyenne m_X et m_Y et de matrices de covariances \Sigma_X et \Sigma_Y.
Notons \Sigma_{XY}=E[(X-m_X)(Y-m_Y)^t], et suppososns \Sigma_Y positive.
Alors E(X|Y)=m_X+\S_{XY}\S_Y^{-1}(T-m_Y) .
Et la covariance de \widetilde X=X-E[X|Y] est \Sigma_{\widetilde X}=\Sigma_X-\Sigma_{XY}\Sigma_Y^{-1}\Sigma_{YX}.

Corollaire: Si X,Y,Z sont trois vecteurs gaussiens dans leur ensemble et si Y et Z sont non corrélés, et \Sigma_Y ainsi que \Sigma_Z sont positives alors:
E[X|Y,Z]=E[X|Y]+E[X|Z]-m_X.


2)Application au filtre de Kalman-Bucy:

Pour cela on va supposer que tous nos vecteurs aléatoires sont des vecteurs gaussiens, que (V_n)_{n\in \mathbb{N}} et (W_n)_{n\in \mathbb{N}} sont indépendants de matrices de covariances Q_n et R_n connues, et que X_n est centré.
On pose {\cal F}_n=\sigma(Y).
Pour prédire X_n à l'aide des n-1 premières observations on va poser {\widehat X}_n=E[X_n|{\cal F}_{n-1}] et pour estimer X_n par les n premières observations on va poser {\widetilde X}_n=E[X_n|{\cal F}_n].
On obtient par le théorème précédent une formule assez compliqué car il faut inverser une matrice de taile de plus en plus grande ce qui peut donc devenir très fastidieux. Il est donc très utile de donner des formules de récurrence qui permette d'alléger les calculs des prédictions et des matrices d'erreurs.
On va noter par la suite \Sigma_n=\Sigma_{X_n-{\widehat X}_n} et {\cal X}_n=\Sigma_{X_n-{\widetilde X}_n}
On a
{\widehat X}_{n+1}=F{\widehat X}_n+K_n(Y_n-G{\widehat X}_n)
\Sigma_{n+1}=(F-K_nG)\Sigma_n(F-K_nG)^t+Q_{n+1}+K_nR_nK_n^t
K_n=F\Sigma_nG^t(G\Sigma_nG^t+R_n)^{-1} et avec les conditions initiales {\widehat X}_1=0,\quad \Sigma_1=\Sigma_{X_0}
Et de la même manière on peut montrer que :
{\widetilde X}_n={\widehat X}_n+H_n(Y_n-G{\widehat X}_n)
{\cal X}_n=(I_d-H_nG)\Sigma_n
H_n=\Sigma_nG^t(G\Sigma_nG^t+R_n)^{-1}

Preuve: Posons I_n=Y_n-E[Y_n|\mathcal{F}_n]=GX_n+W_n-E[GX_n+W_n|\mathcal{F}_n], par indépendance de W_n on obtient I_n=G(X_n-{\widehat X}_n)+W_n
\Sigma_{I_n}=E[I_nI_n^t]=GS_nG^t+R_n (par indépendance de W_n)
On a \mathcal{F}_n=\sigma(\mathcal{F}_{n-1},I_n) cela est évident par le fait que I_n est indépendant de \mathcal{F}_{n-1}
Ainsi par le corollaire, on obtient que {\widehat X}_{n+1}=E[X_{n+1}|\mathcal{F}_n]=E[X_{n+1}|\mathcal{F}_n]+E[X_{n+1}|I_n]=F{\widehat X}_n+FE[X_n|I_n] Or FE[X_n|I_n]=\Sigma_{X_nI_n}S_{I_n}^{-1}I_n
Ainsi {\widehat X}_{n+1}=F{\widehat X}_n+F\Sigma_{X_nI_n}(GS_nG^t+R_n)^{-1}(Y_n-G{\widehat X}_n)
Ainsi montrer la première partie de la récurrence revient à montrer que \Sigma_{X_nI_n}=\Sigma_nG^t
Or {\widehat X}_n étant indépendant de I_n, on a \Sigma_{X_nI_n}=E(X_nI_n^t)=E((X_n-{\widehat X}_n)I_n^t)=\Sigma_nG^t .
X_{n+1}-{\widehat X}_{n+1}=FX_n+V_n-(F{\widehat X}_n+K_n(Y_n-G{\widehat X}_n))=F(X_n-{\widehat X}_n)+V_n-K_n(GX_n+W_n-G{\widehat X}_n)=(F-K_nG)(X_n-{\widehat X}_n)+V_n-K_nW_n et le résultat final en découle par indépendance des 3 termes.

Ce qui permet de simplifier les calculs car les matrices à inverser sont de tailles constantes et qu'il suffit de connaitres les résultats à une étape précédente pour pouvoir calculer la suivante.




IV.Exhaustivité

Loi conditionnelle: Soit X et Y deux variables aléatoires telles que Z=(X,Y) admette une densité de probabilité f_{(X,Y)}(x,y).
On peut considérer la fonction
f_{(X|Y)}(x,y) = \left\lbrace           \begin{array}{ll}             \frac{f_{(X,Y)}(x,y)}{f_Y(y)} & \qquad \mathrm{si}\quad f_Y(y)>0 \\             0 & \qquad \mathrm{sinon} \\           \end{array}         \right.
f_Y(y)=\int_{\mathbb{R}}f_{(X,Y)}(x,y)dx
Ceci nous permet de calculer des espérances conditionneles, ainsi E[g(X)|Y]=\int_{\mathbb{R}}g(x)f_{(X|Y)}(x,Y)dx

Application à la file d'attente: Soit T_{\theta}=E_{\theta}[\mu_n|S_n]P_{\theta}(X_1>t|S_n)S_n=\displaystyle\sum_{i=1}^nX_i
Alors on a f_{(X_1,S_n)}(x,y)=\theta^n e^{-\theta y}\frac{(y-x)^{n-2}}{(n-2)!}\mathbb{1}_{0\le x\le y}
Et f_{S_n}(y)=\theta^ne^{-\theta y}\frac{(-y)^{n-1}}{(n-1)!}\mathbb{1}_{y\ge 0}
Ainsi T_{\theta}=\frac{S_n-t}{S_n}^{n-1}\mathbb{1}_{S_n\ge t}

Définition: Une sous-tribu \cal G est dites exhaustive pour le modèle statistique (\Omega,{\cal F},{\mathbf P_{\theta}}) si pour toute variable aléatoire réelle positive X sur \omega,\cal F, il existe une version de l'espérance conditionnlle E_{\theta}[X|\cal G] qui ne dépendent pas de \theta.
Une statistique T est dite exhaustive si \sigma(T) l'est.

Proposition: Si U est un estimateur sans biais de h(\theta) de carré intégrable et si T est une statistique exhaustive alors l'estimateur V=E[U|T] est un estimateur sans biais de h(\theta) de risque quadratique plus faible que celui de de U. E_{\theta}[(V-h(\theta))^2]\le E_{\theta}[(U-h(\theta))^2]

Définition: T est une statistique complète si pour tout \phi fonction telle que \phi(T)\in L^1
\int \phi(T)P_{\theta}=0\;p.s\quad\forall \theta \Rightarrow \phi=0\;P.p.s

Propriétés: Si U est un estimateur sans biais de h(\theta), de carré in tégrable et t une statistique exhaustive et complète, l'estimateur E[U|T] est alors l'unique estimateur sans biais fonction de T et sa variance est \forall \theta inférieur ou égal à la variance de U et est même plus faible que celle de tout estimater sans biais.
Il est uniformément de variance minimum parmi les estimateurs sans biais.

Application Dans le cas de la file d'attente, S_n est une statistique exhaustive et complète.
Donc E_{\theta}[\mu_n|T] est un estimateur UVMB indépendant de \theta





Bibliographie

[R]: D.Revuz "Probabilités"
[BMP]: Baldi-Mazliak-Priouret "Martingales et chaînes de Markov"
[DCD]: Dacunha Castelle Duflo "Probabilités et statistiques 1"
[W]: Williams "Probability with Martingales"
[B]: Brémaud "Introducton aux probabilités"
[S]: Saporta "Probabilité-Analyse des données et statistiques"
[Sh]: Sheldon Ross
Publié le
ceci n'est qu'un extrait
Pour visualiser la totalité des cours vous devez vous inscrire / connecter (GRATUIT)
Inscription Gratuite se connecter


Vous devez être membre accéder à ce service...

Pas encore inscrit ?

1 compte par personne, multi-compte interdit !

Ou identifiez-vous :


Rester sur la page

Désolé, votre version d'Internet Explorer est plus que périmée ! Merci de le mettre à jour ou de télécharger Firefox ou Google Chrome pour utiliser le site. Votre ordinateur vous remerciera !