
Bonjour,
Un pirate utilisant un détecteur se rend sur île de N trésors cachés. Il parcourt l'île et demande au Chef de l'île de lui montrer tous les trésors. Le chercheur attribue une note allant de 0 à 20 à chaque trésor selon ses propres critères. Le Chef de l'île lui impose une condition pour sa quête : parmi les n trésors proposés aléatoirement, chaque trésor sera présenté un par un. Si le chercheur refuse le i -ème trésor, il ne pourra plus y revenir.
Déterminer l'instant optimal où le chercheur doit faire son choix.
n est strictement inférieur à N.
Bonjour, le problème peut être généralisé ainsi :
On cherche à choisir parmi objets distincts le meilleur avec la plus grande probabilité possible. Le principe est d'inspecter les objets un par un, et à chaque fois de décider si on choisit l'objet inspecté (dans ce cas le processus d'inspection s'arrête et on ne regardera pas les objets suivants) ou si on passe à l'inspection de l'objet suivant. On ne peut pas revenir en arrière. Si les
premiers objets n'ont pas été choisis, on prend alors automatiquement le
-ième objet.
L'objectif de cet exercice est de déterminer une stratégie d'arrêt nous permettant de maximiser la probabilité de choisir le meilleur objet parmi les à notre disposition.
Soit un espace probabilisé et
l'ensemble des permutations de
éléments. Soit
une variable aléatoire uniforme à valeurs dans
. Pour
, la valeur
représente le rang absolu du
-ième objet inspecté (on suppose que les objets ont tous une valeur différente). Par exemple, si
, le meilleur objet est dans la position
. On remarque qu'on ne peut pas observer directement
(on ne connaît le classement absolu des
objets qu'une fois qu'on les a tous inspectés).
À chaque étape , on observe une variable aléatoire
qui donne le rang relatif du
-ième objet inspecté par rapport aux
objets inspectés auparavant. Donc
et
: une fois qu'on a inspecté tous les objets, on connaît leur classement absolu. À chaque instant
, on connaît
, la tribu engendrée par les rangs relatifs des
premiers objets. Par exemple : si
et
alors
,
,
,
.
Soit l'ensemble des valeurs possibles pour le vecteur aléatoire
. Remarquons que
est une fonction mesurable de
. Plus précisément, l'application
qui associe à une permutation la suite correspondante des rangs relatifs est bijective, donc
et
: étant donnée la suite de rangs relatifs
, on peut reconstruire
.
Notre objectif est de trouver un temps d'arrêt (pour la filtration
borné par
, qui maximise la quantité
.
1) Montrer que
.
2) Montrer que les variables sont indépendantes et que pour tout
,
.
3) On définit le processus adapté , par
. Montrer que pour tout temps d'arrêt
borné par
,
.
4) Montrer que, pour tout ,
,
(en particulier est mesurable par rapport à
.
5) Montrer que la fonction valeur est bien définie et que, pour tout
est mesurable par rapport à
. En déduire qu'un temps d'arrêt optimal est donné par
6) Montrer que décroît quand
croît. En déduire qu'il existe un entier
tel que
où
.
7) Montrer que pour ,
.
8) Montrer que quand
et que cette fonction limite admet un maximum en
. On en déduit que lorsque le nombre d'objets
tend vers l'infini, la stratégie optimale consiste à laisser défiler une proportion d'environ 37% d'objets sans en sélectionner, puis à choisir le premier objet meilleur que tous ceux qui l'ont précédé.
Réponses
1) La variable aléatoire st uniformément distribuée sur toutes les permutations possibles de
. Il y a
permutations possibles, donc la probabilité que
prenne une certaine permutation spécifique est
.
2) Chaque représente le rang relatif du
-ième objet parmi les
premiers inspectés.
Comme est uniformément distribué sur
, la probabilité que
soit égal à
est
.
Et puisque les objets sont inspectés de manière séquentielle et que chaque dépend uniquement des inspections précédentes mais pas des inspections futures, les variables
sont indépendantes.
3) Le processus est adapté à la filtration
. Etant donné que
est l'espérance conditionnelle de l'indicateur de l'événement
par rapport à
pour tout temps d'arrêt
borné par
. Cela découle de la propriété de martingale du processus
, où
est une martingale avec
et
pour tout
4) est défini comme
, c'est-à-dire l'espérance conditionnelle de l'événement
sachant la tribu
. Cela signifie que
est la probabilité que l'objet observé en position
soit le meilleur parmi les
objets, sachant les informations jusqu'à
.
On remarque que pour que , l'objet inspecté à la position
doit être le meilleur parmi les
premiers objets. De plus, parmi les
objets, l'objet en position
a une probabilité
d'être le meilleur globalement. Si
(c'est-à-dire si l'objet
est le meilleur parmi les
premiers), alors
, car parmi les
objets, l'uniformité implique que la probabilité que cet objet soit également le meilleur parmi les
est
. Sinon, si
.
Donc,
,
et est clairement mesurable par rapport à
.
5) Pour tout dépend du maximum des valeurs futures de
pour
, donc
est mesurable par rapport à
car
pour
est également mesurable par rapport à
(question précédente).
Pour le temps d'arrêt optimal , la stratégie consiste à choisir le premier instant où la condition
est satisfaite et
, sinon on choisit le dernier objet, soit
.
Formellement,
si cet infimum existe, sinon .
6) est une fonction décroissante en
car, à mesure que
augmente, le nombre d'indices
pour lesquels
est défini diminue.
Par conséquent, l'espérance est aussi décroissante.
Cela implique qu'il existe un entier tel que :
si cet infimum existe, sinon .
7) est la valeur de
au temps d'arrêt
. La probabilité que
pour un
est
, et
est le premier temps après
où
. Donc, la contribution de
est proportionnelle à
pour chaque
où
.
En prenant l'espérance de , on obtient :
.
8) Je sèche complètement 
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :