Quand tu est confronté à un problème dans ta vie, tu prends une décision en fonction des données dont tu disposes. Si tu as déjà eu une expérience similaire, tu vas l'utiliser pour prendre la bonne décision. Si tu n'en as pas, tu vas essayer de prédire ce qui va se passer si tu prends la décision d, et si jamais les conséquences de d ne te plaisent pas, alors tu ne prendras pas d.
Ca veut dire que tu veux à chaque décision d, associer un réel. Plus le réel est grand et pire sera la perte, de ton point de vue. Tu cherches, dans l'idéal, une décision avec une perte nulle. En pratique, avec une perte la plus faible possible.
Ici, c'est pareil, sauf qu'une machine n'est pas capable d'anticiper par elle-même les conséquences de ses actions. Tout ce qu'elle peut faire, c'est analyser des données (le passé) et cracher une solution interpolée depuis ces données, en espérant qu'elle se généralise à des inputs un peu différents mais similaires aux données. C'est-à-dire de l'apprentissage, qu'il soit supervisé ou non par un humain.
L'idéal pour une décision, ce serait , mais si ce n'est pas toujours possible (voir (*)), tu cherches d le plus proche possible de , c'est-à-dire de (pseudo-)distance avec la plus faible possible. La question, c'est depuis quelle direction tu approches ? Selon quels critères ?
Et la réponse, c'est que ces critères sont gravés dans la définition de la fonction w. w vaut 0 en 0 parce que si , la distance entre d et est nulle donc la perte est nulle.
Si tu veux discriminer les candidats à l'optimum de façon différente, tu changes juste de fonction w sans toucher aux paramètres ().
---------
(*) : Si tu as un unique paramètre alros bien évidemment d = \theta est la solution (décision) optimale de ton problème.
Mais par exemple, si
et et dont tes trois paramètres (complexes, ou dans , comme tu préfères)
pour tout j
et que D est la distance euclidienne usuelle
alors tu n'as pas intérêt à prendre pour un quelconque j parce que ça annulerait un terme de mais les deux autres seraient grands (somme égale à ).
La meilleure solution serait sans doute de prendre d = le centre du cercle circonscrit au triangle, à vue de nez la somme doit valoir à peu près .
Si tu veux favoriser un par rapport aux autres, il suffit de lui donner un poids (weight) , plus grand que les autres. C'est comme un barycentre ou une régression linéaire, mais un peu généralisé