Bonjour,
Un pirate utilisant un détecteur se rend sur île de N trésors cachés. Il parcourt l'île et demande au Chef de l'île de lui montrer tous les trésors. Le chercheur attribue une note allant de 0 à 20 à chaque trésor selon ses propres critères. Le Chef de l'île lui impose une condition pour sa quête : parmi les n trésors proposés aléatoirement, chaque trésor sera présenté un par un. Si le chercheur refuse le i -ème trésor, il ne pourra plus y revenir.
Déterminer l'instant optimal où le chercheur doit faire son choix.
n est strictement inférieur à N.
Bonjour, le problème peut être généralisé ainsi :
On cherche à choisir parmi objets distincts le meilleur avec la plus grande probabilité possible. Le principe est d'inspecter les objets un par un, et à chaque fois de décider si on choisit l'objet inspecté (dans ce cas le processus d'inspection s'arrête et on ne regardera pas les objets suivants) ou si on passe à l'inspection de l'objet suivant. On ne peut pas revenir en arrière. Si les premiers objets n'ont pas été choisis, on prend alors automatiquement le -ième objet.
L'objectif de cet exercice est de déterminer une stratégie d'arrêt nous permettant de maximiser la probabilité de choisir le meilleur objet parmi les à notre disposition.
Soit un espace probabilisé et l'ensemble des permutations de éléments. Soit une variable aléatoire uniforme à valeurs dans . Pour , la valeur représente le rang absolu du -ième objet inspecté (on suppose que les objets ont tous une valeur différente). Par exemple, si , le meilleur objet est dans la position . On remarque qu'on ne peut pas observer directement (on ne connaît le classement absolu des objets qu'une fois qu'on les a tous inspectés).
À chaque étape , on observe une variable aléatoire qui donne le rang relatif du -ième objet inspecté par rapport aux objets inspectés auparavant. Donc et : une fois qu'on a inspecté tous les objets, on connaît leur classement absolu. À chaque instant , on connaît , la tribu engendrée par les rangs relatifs des premiers objets. Par exemple : si et alors , , , .
Soit l'ensemble des valeurs possibles pour le vecteur aléatoire . Remarquons que est une fonction mesurable de . Plus précisément, l'application qui associe à une permutation la suite correspondante des rangs relatifs est bijective, donc et : étant donnée la suite de rangs relatifs , on peut reconstruire .
Notre objectif est de trouver un temps d'arrêt (pour la filtration borné par , qui maximise la quantité
.
1) Montrer que
.
2) Montrer que les variables sont indépendantes et que pour tout ,
.
3) On définit le processus adapté , par . Montrer que pour tout temps d'arrêt borné par ,
.
4) Montrer que, pour tout ,
,
(en particulier est mesurable par rapport à .
5) Montrer que la fonction valeur est bien définie et que, pour tout est mesurable par rapport à . En déduire qu'un temps d'arrêt optimal est donné par
6) Montrer que décroît quand croît. En déduire qu'il existe un entier tel que où
.
7) Montrer que pour ,
.
8) Montrer que quand et que cette fonction limite admet un maximum en . On en déduit que lorsque le nombre d'objets tend vers l'infini, la stratégie optimale consiste à laisser défiler une proportion d'environ 37% d'objets sans en sélectionner, puis à choisir le premier objet meilleur que tous ceux qui l'ont précédé.
Réponses
1) La variable aléatoire st uniformément distribuée sur toutes les permutations possibles de . Il y a permutations possibles, donc la probabilité que prenne une certaine permutation spécifique est .
2) Chaque représente le rang relatif du -ième objet parmi les premiers inspectés.
Comme est uniformément distribué sur , la probabilité que soit égal à est .
Et puisque les objets sont inspectés de manière séquentielle et que chaque dépend uniquement des inspections précédentes mais pas des inspections futures, les variables sont indépendantes.
3) Le processus est adapté à la filtration . Etant donné que est l'espérance conditionnelle de l'indicateur de l'événement par rapport à pour tout temps d'arrêt borné par . Cela découle de la propriété de martingale du processus , où est une martingale avec et pour tout
4) est défini comme , c'est-à-dire l'espérance conditionnelle de l'événement sachant la tribu . Cela signifie que est la probabilité que l'objet observé en position soit le meilleur parmi les objets, sachant les informations jusqu'à .
On remarque que pour que , l'objet inspecté à la position doit être le meilleur parmi les premiers objets. De plus, parmi les objets, l'objet en position a une probabilité d'être le meilleur globalement. Si (c'est-à-dire si l'objet est le meilleur parmi les premiers), alors , car parmi les objets, l'uniformité implique que la probabilité que cet objet soit également le meilleur parmi les est . Sinon, si .
Donc,
,
et est clairement mesurable par rapport à .
5) Pour tout dépend du maximum des valeurs futures de pour , donc est mesurable par rapport à car pour est également mesurable par rapport à (question précédente).
Pour le temps d'arrêt optimal , la stratégie consiste à choisir le premier instant où la condition est satisfaite et , sinon on choisit le dernier objet, soit .
Formellement,
si cet infimum existe, sinon .
6) est une fonction décroissante en car, à mesure que augmente, le nombre d'indices pour lesquels est défini diminue.
Par conséquent, l'espérance est aussi décroissante.
Cela implique qu'il existe un entier tel que :
si cet infimum existe, sinon .
7) est la valeur de au temps d'arrêt . La probabilité que pour un est , et est le premier temps après où . Donc, la contribution de est proportionnelle à pour chaque où .
En prenant l'espérance de , on obtient :
.
8) Je sèche complètement
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :