L'estimation paramétrique et non paramétrique a un peu le même objectif principal. Je vais prendre le cas standard, y a plein d'autres utilisations mais prenons le cas le plus fréquent.
J'ai en ma possession la réalisation de n variables iid qui suivent la même loi L que je note L'objectif est d'obtenir la loi de L.
Quel est l'intérêt en pratique? Ca me permet de calculer des espérances, des quantiles etc, bref tout ce qu'on peut calculer en connaissant une loi donnée.
La principale différence entre le modèle paramétrique et le modèle non paramétrique est que dans le modèle paramétrique, on fait une très grosse hypothèse sur la loi de L. La loi de L est une fonction du paramètre (qui peut être unidimensionnel ou multidimensionnel).
Par exemple dans le modèle gaussien on peut supposer que avec
Dans le modèle de Bernoulli, avec
L'intérêt de cette méthode est que le modèle étant fixé, on a des techniques de calcul (typiquement maximum de vraisemblance) qui nous permettent de trouver le paramètre qui "colle" le mieux aux observations .
De plus, une fois le paramètre déterminé on connait parfaitement la loi de X et il est très facile de simuler de nouvelles réalisations de X. De plus, la distribution étant parfaitement connu, on peut, sans simulation calculer des quantiles. Bien entendu, plus le nombre n de réalisations est grand, plus tu approches bien ton paramètre. De plus dans ce type de modèle tu peux en général calculer des intervalles de confiance et faire pas mal de tests statistiques. Enfin les modèles paramétriques sont en général "robustes" dans le sens où rajouter quelques réalisations ne change pas du tout au tout le paramètre estimé.
L'inconvénient principal bien entendu (sinon ça serait trop facile et on ferait toujours ça) est que tu dois définir à priori un modèle. Il n'y a aucune raison que ta loi se ballade dans un
Pour des cas simples (lancer d'une pièce) la famille est forcée (forcément une Bernoulli de paramètre p) donc c'est facile. Pour d'autres cas plus complexes il n'y a pas toujours de solution paramétrique.
Malgré tout en pratique, caler une loi fonctionne souvent est donne de bonnes approximations de la loi, une fois que tu as déterminé un modèle pas trop bête. (Quand tu travailles avec le métier, des gens sur le terrain en général c'est à eux que tu demandes si le modèle est pas trop débile)
Souvent cette méthode est appliquée n'importe comment, on considère que tout est gaussien et ça peut parfois provoquer des "cataclysmes", vraiment! Par exemple en finance autrefois on utilisait beaucoup trop le modèle gaussien, les mouvements browniens etc sauf que les gaussiennes ont le problème de tomber trop vite à 0 une fois qu'on s'éloigne de la moyenne alors que les chocs dans l'économie sont beaucoup moins rares que ça (on dit qu'on a plutot des distributions à queue épaisse, les événéments extremes sont probables)
Le modèle non paramétrique consiste aussi à déterminer la loi L, mais là tu ne fais plus aucune hypothèse sur L. La méthode principale c'est un peu l'utilisation d'histogrammes. J'approxime F(x) (où F est la fonction de répartition associée à L) par , bref c'est la fréquence empirique de réalisations X qui sont inférieures à x.
Tu peux faire ça pour n'importe quelles variables iid X, ça te donne déjà un aperçu de la loi. Le gros problème c'est que les tests statistiques sont monstrueux et pas utilisables en pratique. Tu ne peux pas non plus calculer des quantiles extrêmes si tu n'as pas assez de réalisations (si t'as 100 réalisations et que tu veux calculer le quantile à 0.1%, bah ça sera toujours la plus petite valeur obtenue...)
Il n'empêche qu'une fois ta distribution F (tu peux vérifier qu'elle est en escalier, comme les histogrammes) obtenue, tu peux tenter de lisser F avec des méthodes à noyau ou type spline pour avoir quelque chose de moins dégueulasse.