Bonjour à tous !
Dans les cours de Stat inf que j'ai lu, il est mentionné qu'une décision statistique est une action effectuer après observation. On définition une règle de décision pure (procédure) comme une application d mesurable de l'ensemble des observations muni d'une tribu dans l'ensemble des décision muni de sa tribu. Autrement dit à chaque observation de l'échantillon x la décision prise est d(x). On définit également une règle de décision aléatoire qui associe à chaque observation et une décision une distribution de proba.
Etant donné que pour un problème donné, on dispose de plusieurs règle de décisions , il convient de le comparer et de choisir la meilleure. On utilise la perte encourue en prenant la decision comme mesure de comparaison.
On definit dans ce contexte une fonction perte comme une application w mesurable de R+ dans R+ verifiant w(0)=0,.
Je ne vois pas en quoi cette definiion repond à l'objectif
soit D une pseudo distance , on definit la perte L , comme L=w(D(d,theta)) où d est la regle de decision et theta le parametre.
Etant donné que pour chaque observation , ona une perte, on prend la moyenne des pertes appelé risque qui est l'indicateur de comparaison.
En realité , je ne comprend pas pourquoi la fonctio perte est défini ainsi et pourquoi une peudo-distance
Quand tu est confronté à un problème dans ta vie, tu prends une décision en fonction des données dont tu disposes. Si tu as déjà eu une expérience similaire, tu vas l'utiliser pour prendre la bonne décision. Si tu n'en as pas, tu vas essayer de prédire ce qui va se passer si tu prends la décision d, et si jamais les conséquences de d ne te plaisent pas, alors tu ne prendras pas d.
Ca veut dire que tu veux à chaque décision d, associer un réel. Plus le réel est grand et pire sera la perte, de ton point de vue. Tu cherches, dans l'idéal, une décision avec une perte nulle. En pratique, avec une perte la plus faible possible.
Ici, c'est pareil, sauf qu'une machine n'est pas capable d'anticiper par elle-même les conséquences de ses actions. Tout ce qu'elle peut faire, c'est analyser des données (le passé) et cracher une solution interpolée depuis ces données, en espérant qu'elle se généralise à des inputs un peu différents mais similaires aux données. C'est-à-dire de l'apprentissage, qu'il soit supervisé ou non par un humain.
L'idéal pour une décision, ce serait , mais si ce n'est pas toujours possible (voir (*)), tu cherches d le plus proche possible de
, c'est-à-dire de (pseudo-)distance avec
la plus faible possible. La question, c'est depuis quelle direction tu approches
? Selon quels critères ?
Et la réponse, c'est que ces critères sont gravés dans la définition de la fonction w. w vaut 0 en 0 parce que si , la distance entre d et
est nulle donc la perte est nulle.
Si tu veux discriminer les candidats à l'optimum de façon différente, tu changes juste de fonction w sans toucher aux paramètres ().
---------
(*) : Si tu as un unique paramètre alros bien évidemment d = \theta est la solution (décision) optimale de ton problème.
Mais par exemple, si
et
et
dont tes trois paramètres (complexes, ou dans
, comme tu préfères)
pour tout j
et que D est la distance euclidienne usuelle
alors tu n'as pas intérêt à prendre pour un quelconque j parce que ça annulerait un terme de
mais les deux autres seraient grands (somme égale à
).
La meilleure solution serait sans doute de prendre d = le centre du cercle circonscrit au triangle, à vue de nez la somme doit valoir à peu près .
Si tu veux favoriser un par rapport aux autres, il suffit de lui donner un poids (weight)
, plus grand que les autres. C'est comme un barycentre ou une régression linéaire, mais un peu généralisé
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :