Loi de probabilité : encyclopédie mathématiques
Cet article est issu de l'encyclopédie libre Wikipedia.En thĂ©orie des probabilitĂ©s et en statistique, une loi de probabilitĂ© dĂ©crit le comportement alĂ©atoire d'un phĂ©nomène dĂ©pendant du hasard. L'Ă©tude des phĂ©nomènes alĂ©atoires a commencĂ© avec l'Ă©tude des jeux de hasard. Jeux de dĂ©s, tirage de boules dans des urnes, jeu de pile ou face, ont Ă©tĂ© des motivations pour comprendre et prĂ©voir les expĂ©riences alĂ©atoires. Ces premières approches sont des phĂ©nomènes discrets, c'est-Ă -dire dont le nombre de rĂ©sultats possibles est fini, ou au plus dĂ©nombrable. Certaines questions ont cependant fait apparaitre des lois Ă support infini non dĂ©nombrable, par exemple lorsque l'on effectue un nombre infini de tirages de pile ou face, la rĂ©partition du nombre de pile obtenu se conduit comme une loi normale.
Le concept de loi de probabilité se formalise mathématiquement par des mesures, ainsi que des variables aléatoires discrètes ou continues. Le cas continu correspond à la théorie de l'intégration, alors que le cas discret fait apparaitre des calculs de sommes et de séries. Des fonctions particulières permettent de caractériser les lois de probabilité, par exemple la fonction de répartition, la fonction caractéristique, etc. Il existe également une théorie plus générale des lois de probabilité en tant que mesures finies de masse unitaire.
Des fluctuations ou de la variabilité sont présentes dans presque toute valeur qui peut être mesurée dans un phénomène ; de plus presque toutes les mesures ont une part d'erreur intrinsèque. Les lois de probabilités permettent de modéliser ces incertitudes et de décrire des phénomènes physiques, biologiques, économiques, etc. Le domaine de la statistique permet de trouver des lois de probabilités adaptées aux phénomènes aléatoires.
Il existe beaucoup de lois de probabilités différentes. Une loi importante est la loi normale, elle approche le comportement asymptotique de nombreuses lois de probabilités puisque qu'elle apparait dans le théorème central limite. D'autres lois sont plus complexes, certaines lois réelles sont ni discrètes, ni continues.
Sommaire |
Une loi de probabilité décrit de manière théorique le caractère aléatoire d'une expérience qui est considéré comme aléatoire[1],[2]. « La notion d'"expérience aléatoire" est dégagée pour désigner un processus réel de nature expérimentale, où le hasard intervient, avec des issues possibles bien identifiées[3]. ». Par exemple, lors d'un jeté de dé (c'est l'évènement aléatoire), le résultat est un chiffre de 1 à 6, et il est généralement admis que chaque résultat a la même chance d'apparaître, la loi de probabilité est donc : chacun des 6 chiffres est équiprobable avec probabilité 1/6.
Historiquement, les lois de probabilité ont été étudiées dans les jeux de hasard : jeux de dés, jeux de cartes, etc. Les résultats possibles de ces phénomènes sont en nombre fini, la loi de probabilité est dite discrète. Donner la loi de probabilité revient à donner la liste des valeurs possibles avec leurs probabilités associées[4]. Elle est alors donnée sous forme de formule, de tableau de valeurs, d'arbre de probabilité, ou de fonctions (détaillées dans les sections suivantes).
Dans un contexte plus général, c'est-à -dire dans le cas où le nombre de valeurs possibles du phénomène aléatoire n'est pas fini mais infini (dénombrable ou non), la loi de probabilité décrit toujours la répartition des chances pour des résultats possibles mais est caractérisée par des fonctions (densité de probabilité, fonction de répartition, entre autres) ou plus généralement par des mesures.
L'utilisation du hasard existe depuis l'antiquité notamment dans les jeux de hasard, les paris sur les risques des transports maritimes ou les rentes viagères[5]. Cependant une des premières références connues à des calculs de probabilités est un calcul élémentaire sur La Divine Comédie qui n'apparait qu'au XVe siècle pendant la Renaissance[6]. Les premiers traités commencent à former le début de la théorie des probabilités, principalement basée sur des probabilités combinatoires. les problèmes se posent ainsi, à propos de la durée d'un jeu de carte :
« Sur la durée des parties que l'on joue en rabattant... On demande combien il y a à parier que la partie qui peut durer à l'infini sera finie en un certain nombre déterminé de coups au plus. »
— Essay, de Montmort, 1713[7]
On reconnait ici la probabilité (à parier) qu'une variable (la durée de la partie) soit plus petite qu'une valeur (certain nombre déterminé), il s'agit de la fonction de répartition de la loi de probabilité de la durée d'une partie.
C'est dans la thèse de Nicolas Bernoulli, publiée en 1711, qu'apparait pour la première fois la loi uniforme[8]. Certaines autres lois font alors leurs apparition comme la loi binomiale ou la loi normale même si leurs approches ne sont pas complètement rigoureuses[8]. Par exemple, la loi normale est construite par Abraham de Moivre grâce à la courbe de Gauss par une approximation numérique[9]. Au XVIIIe siècle, d'autres idées liées aux lois de probabilité émergent également[8] comme l'espérance d'une variable aléatoire discrète avec Jean le Rond D'Alembert ou les probabilités conditionnelles avec Thomas Bayes. Quelques lois de probabilités continues sont énoncées dans un mémoire de Joseph-Louis Lagrange en 1770[8].
La définition formelle des mesures de probabilités commence en 1896 avec une publication de Émile Borel[10] et va continuer avec plusieurs autres mathématiciens tels que Henri-Léon Lebesgue, Maurice René Fréchet, Paul Lévy et notamment Andreï Kolmogorov qui formula les axiomes des probabilités en 1933.
L'utilisation rigoureuse des lois de probabilités a pu alors se développer au début du XXe siècle dans des sciences appliquées telles que la biométrie avec Karl Pearson par exemple[11] ou la physique statistique avec Ludwig Boltzmann[12].
En théorie des probabilités, une loi de probabilité est une mesure positive sur un espace mesurable
, telle que
. Le triplet
est appelé espace probabilisé. Une loi de probabilité est également appelée mesure de probabilité dans le cas d'une approche plutôt théorique, ou distribution de probabilité pour une étude plus appliquée[13].
Une manière usuelle d'expression d'une loi est l'utilisation d'une variable aléatoire puisque, pour toute loi de probabilité sur
, il existe[14] une variable aléatoire X définie sur un espace probabilisé (potentiellement différent de
) et de loi
.
Les lois les plus couramment étudiées en théorie des probabilités sont les lois à valeurs réelles ; elles peuvent être représentées à l'aide d'une variable aléatoire réelle par la définition suivante.
Définition[15] — Soit une variable aléatoire réelle sur l'espace probabilisé , c'est-à -dire une fonction mesurable
.
La loi de probabilité de la variable aléatoire est la mesure de probabilité, notée
, définie sur l'espace mesurable
par :
pour tout borélien . Autrement dit,
est la mesure image (en) de
par
.
Ainsi, pour définir la loi d'une variable aléatoire, on transporte la loi de probabilité sur
en une mesure
sur
.
La représentation d'une loi par une variable aléatoire n'est pas unique[16]. Autrement dit, deux variables aléatoires différentes, ou même définies sur des espaces différents, peuvent avoir la même loi. Deux variables aléatoires réelles et
ont mĂŞme loi si
(en terme d'égalité de mesures). C'est-à -dire :
pour tout borélien B. Le théorème suivant permet d'utiliser une autre caractérisation :
Théorème de transfert[14] (ou de transport[17]) — Soit une variable aléatoire réelle Alors,
pour toute fonction de
dans
telle qu'au moins une des deux intégrales ait un sens.
L'intégrale apparaissant dans le dernier terme est l'intégrale, au sens de la théorie de la mesure, de la fonction φ par rapport à la mesure Cette intégrale prend la forme d'une somme ou d'une intégrale dans les deux cas classiques de lois discrètes et de lois à densité, voir les sections ci-dessous.
Ainsi, deux variables aléatoires réelles et
ont mĂŞme loi si :
pour toute fonction
telle qu'au moins un des deux termes de l'égalité ait un sens.
Intuitivement, une loi de probabilité est dite multidimensionnelle, ou n-dimensionnelle[18], lorsque la loi décrit plusieurs valeurs (aléatoires) d'un phénomène aléatoire. Par exemple lors du jet de deux dés, la loi de probabilité des deux résultats obtenus est une loi bidimensionnelle. Le caractère multidimensionnel apparait ainsi lors du transfert, par une variable aléatoire, de l'espace probabilisé vers un espace numérique
de dimension n. Dans l'exemple des deux dés, la dimension est n=2 et l'espace
est
. La loi est également appelée loi jointe[19].
Un exemple important de loi multidimensionnelle est la loi de probabilité produit où
et
sont deux lois unidimensionnelles. Cette loi de probabilité est la loi d'un couple de variables aléatoires indépendantes[20], c'est le cas de l'exemple des deux dés.
Définition — Soit une variable aléatoire X sur l'espace probabilisé , à valeurs dans
muni de la tribu borélienne produit
. La loi de la variable aléatoire
est la mesure de probabilité
définie par :
pour tout .
La variable aléatoire X est alors identifiée[21] à un vecteur aléatoire à n dimensions : . Le théorème de Cramer-Wold[22] assure que la loi (n-dimensionnelle) de ce vecteur aléatoire est entièrement déterminée par les lois (unidimensionnelles) de toutes les combinaisons linéaires de ces composantes :
pour tous
.
Une loi bidimensionnelle (ou n-dimensionnelle) est dite[23] à densité sur si la loi est absolument continue par rapport à la mesure de Lebesgue sur
, c'est-à -dire si la loi de la variable aléatoire correspondante s'écrit sous la forme :
Intuitivement, la loi marginale d'un vecteur aléatoire est la loi de probabilité d'une de ses composantes. Pour l'obtenir, on projette la loi sur l'espace unidimensionnel de la coordonnée recherchée. La loi de probabilité de la i-ème coordonnée d'un vecteur aléatoire est appelée la i-ème loi marginale[24]. La loi marginale de
s'obtient par la formule :
Les lois marginales d'une loi à densité s'expriment à l'aide de leurs densités marginales.
Intuitivement, une loi de probabilité conditionnelle permet de décrire le comportement aléatoire d'un phénomène lorsque l'on connait une information sur ce processus. Autrement dit, la probabilité conditionnelle permet d'évaluer le degré de dépendance stochastique entre deux évènements[25]. Par exemple, lors d'un lancer de dés, la loi conditionnelle permet de donner la loi de la somme des résultats sachant que l'un des deux dés a donné un résultat d'au moins quatre.
La probabilité conditionnelle se définit[26], de manière la plus intuitive, sur les évènements par la probabilité d'un évènement A conditionnellement à un autre évènement B :
, pour tout A et B de la tribu sous-jacente tels que
. La loi de probabilité[27]
est utilisée dans les probabilités et statistique élémentaires, pour la formule des probabilités totales ou le théorème de Bayes par exemple.
La probabilité conditionnelle est également définie pour les variables aléatoires. On étudie alors la loi d'une variable X conditionnellement à une variable Y. Lorsque , la loi de X sachant Y=y est définie par[27] :
Cependant cette définition n'est pas valide si la loi de Y est à densité puisque , pour tout y. La définition suivante est valide pour tout couple de variables aléatoires.
Définition[28] — Soit un couple de variables aléatoires réelles. Il existe une loi de probabilité
, appelée loi conditionnelle de
sachant
, ou sachant
, définie par, pour toute fonction borélienne bornée
:
La loi est également notée ou
. L'égalité précédente est une égalité entre variables aléatoires[29].
De manière plus générale, la loi de probabilité se définit à partir de l'espérance conditionnelle d'une variable aléatoire X sachant une tribu . Cette espérance conditionnelle est l'unique variable aléatoire
-mesurable, notée
et vérifiant[26] :
pour toute Z, variable
-mesurable. La loi conditionnelle est alors définie par[30] :
Dans le cas des lois à densité, il existe une densité conditionnelle d'une loi par rapport à l'autre, et inversement. Si est la densité de la loi bidimensionnelle, les deux densités conditionnelles sont alors données par[31] :
Ici, et
sont les deux lois marginales de X et Y respectivement. En remplaçant les intégrales par des sommes, on obtient des formules similaires dans le cas où les lois marginales sont discrètes ou lorsque la loi marginale de X est discrète et celle de Y est à densité, ou inversement[32].
Puisque est un espace de Banach, les lois à valeurs dans un espace de Banach généralisent les lois à valeurs réelles. La définition est alors similaire[33].
Définition — Soit une variable aléatoire sur l'espace probabilisé et à valeurs dans un espace de Banach
muni de la tribu
engendrée par les ensembles ouverts de
. La loi de probabilité de la variable aléatoire
est la mesure de probabilité
définie sur l'espace mesurable
par :
pour tout .
Pour obtenir de bonnes propriétés, il est courant de considérer des mesures de probabilités tendues (en), c'est-à -dire qui intuitivement sont concentrées sur un ensemble compact, et de supposer que l'espace de Banach est séparable[34].
Un exemple possible d'espace de Banach est l'espace des fonctions continues . Un processus stochastique est une famille de variables aléatoires
indexées par un ensemble d'indices T. Une définition possible de la loi de probabilité d'un tel processus est la donnée des lois finies-dimensionnelles[35], c'est-à -dire la loi de probabilité multidimensionnelle des vecteurs
lorsque
. La loi peut alors être étendue par le théorème d'extension de Carathéodory pour le processus entier. Prenons l'exemple du mouvement brownien
qui est à trajectoires continues, sa loi de probabilité est la mesure de Wiener[36], généralement notée W :
Une loi de probabilité est une mesure de masse totale unitaire. L'ensemble des lois de probabilité est donc un sous-espace de l'espace des mesures finies. Cet espace est souvent noté[37] ou
pour les lois de probabilité réelles. Dans la suite de cette section, les propriétés de cet espace sont détaillées pour les lois de probabilités réelles ; elles sont cependant vraies sur les espaces de Banach.
On peut munir cet espace d'une topologie appelée la topologie faible[37]. Cette topologie définit donc une convergence faible des lois de probabilité : une suite de lois de probabilité converge faiblement (weakly en anglais) vers une loi de probabilité
si :
La convergence est notée[37] : . Cette convergence se répercute, par le théorème de transfert, sur les variables aléatoires
de lois respectives
; la convergence de variables aléatoires est alors appelée convergence en loi (ou en distribution ou faible) et est notée
ou
. Si la convergence faible des variables aléatoires est souvent utilisée, elle ne concerne en fait que leur loi.
L'espace des lois de probabilités muni de cette topologie faible est[38] un espace métrique, complet et séparable (dans le cas d'un espace de Banach également séparable), ce qui en fait un espace polonais.
Les lois de probabilités les plus courantes dans les applications sont les lois dites discrètes, c'est-à -dire à support fini ou dénombrable, et les lois dites à densité. Il existe cependant des lois de probabilité ni discrètes ni à densité.
Une loi est dite discrète si son support est un ensemble fini ou infini dénombrable : . Dans ce cas, il suffit de définir la liste des masses
sur les singletons pour définir la loi[15] :
. La mesure de probabilité discrète est alors, par définition, une combinaison linéaire finie ou dénombrable de masses de Dirac[16],[23] :
.
Une loi discrète peut être représentée par un diagramme en bâtons[13].
Dans le cas où la loi est définie à partir d'une variable aléatoire X, un critère suffisant pour que la loi soit discrète est que l'image de X soit un ensemble au plus dénombrable, la loi discrète
est alors la loi d'une variable aléatoire discrète[13],[15].
D'un point de vue pratique, les calculs de probabilités liées à une variable aléatoire de loi discrète font alors intervenir des calculs de sommes finies ou de séries :
, oĂą
est le support de X, c'est-à -dire l'ensemble des réels
tels que
. Ceci vient du fait que, dans le cas des variables discrètes, le théorème de transfert s'exprime sous la forme :
.
Voici une liste non exhaustive de lois de probabilités discrètes à support fini ou dénombrable.
La masse de Dirac est la plus simple des lois discrètes au sens où le support de la loi ne contient qu'une valeur[39]. Si une variable aléatoire est de loi de Dirac , alors X vaut x avec une probabilité égale à 1. Cette loi modélise un phénomène déterministe (non aléatoire) puisque le résultat de l'expérience est (presque sûrement) égal à la valeur connue x.
La loi uniforme discrète modélise un phénomène aléatoire dont les résultats sont équiprobables. C'est le cas,par exemple, d'un lancer d'un dé. Si le support de la loi est l'ensemble à n éléments , alors la loi est définie par :
. Cette loi ne dépend que du cardinal fini n du support.
La mesure de probabilité s'écrit : , où
est la mesure de Dirac.
La loi de Bernoulli correspond à une expérience à deux issues (succès–échec), généralement codées respectivement par les valeurs 1 et 0. La loi est définie par où
est la probabilité de succès. Cette loi est [16]
et ne dépend que du paramètre p.
C'est la loi du nombre de succès obtenus à l'issue de n épreuves de Bernoulli indépendantes de paramètre , autrement dit c'est la somme de n variables aléatoires de loi de Bernoulli. Cette loi à support fini est définie par :
pour tout
.
C'est la loi qui modélise le temps du premier succès dans une série d'épreuves de Bernoulli indépendantes à probabilité de succès . Cette loi à support infini dénombrable est donnée par :
. Cette loi est l'unique loi discrète à posséder la propriété de perte de mémoire.
La loi de Poisson est la loi qui décrit le comportement du nombre d'évènements se produisant dans un laps de temps fixé. Cette loi à support infini dénombrable dépend d'un paramètre souvent noté ; elle est définie par :
.
La loi hypergéométrique modélise un tirage simultané de n boules dans une urne contenant une proportion pA de boules gagnantes et une proportion (1-p)A de boules perdantes, pour un nombre total A de boules. La loi décrit le nombre de boules gagnantes extraites. Cette loi à support fini dépend des trois paramètres ,
et
, et est définie par :
.
Lorsque la loi de probabilité est absolument continue par rapport à la mesure de Lebesgue sur , la loi, ainsi qu'une variable aléatoire associée, sont dites continues, ou à densité[23]. Dans ce cas, en vertu du Théorème de Radon-Nikodym, la mesure
possède une densité de probabilité, généralement notée
, par rapport à la mesure de Lebesgue. Autrement dit, la formule suivante définit la loi
:
L'égalité ci-dessus est la spécialisation du théorème de transfert, mais cette fois, au cas particulier des variables à densité, puisque dans ce cas particulier, on a : . Pour étudier les propriétés de ces lois à densité (moments, fonction caractéristique, transformée de Laplace, etc), il faut alors utiliser la théorie de l'intégration[40].
Une loi à densité s'annule sur les singletons[41], c'est-à -dire que la loi vérifie pour tout nombre réel
Toutefois, cette dernière propriété, qui oppose les variables à densité aux variables discrètes, n'est pas caractéristique des variables à densité.
La loi uniforme sur un intervalle indique, intuitivement, que toutes les valeurs de l'intervalle ont les mêmes chances d'apparaître. Plus formellement, chaque sous-intervalle a une probabilité égale à la mesure de Lebesgue de [c,d] (multipliée par une constante) d'apparaître. La loi uniforme ne dépend que de l'intervalle, son support est compact et sa densité est donnée par :
pour tout
.
La loi exponentielle est la loi communément utilisée pour modéliser le temps de vie d'un phénomène puisque c'est l'unique loi à densité possédant la propriété de perte de mémoire. En ce sens elle est l'analogue continu de la loi géométrique. Cette loi à support semi-infini ne dépend que d'un paramètre (parfois appelé l'intensité), sa densité est donnée par : pour tout
.
La loi normale, ou loi gaussienne, est une loi centrale en théorie des probabilités et en statistique. Elle décrit le comportement des séries d'expériences aléatoires lorsque le nombres d'essais est très grand. C'est la loi limite dans le théorème central limite, elle est également l'unique loi stable de paramètre 2. La loi normale est caractérisée par sa moyenne (qui est également sa médiane) et par son écart-type, son support est la droite réelle. Sa densité est symétrique et sa forme est communément appelée la courbe de Gauss ou courbe en cloche : .
La loi de Cauchy est la loi stable de paramètre 1, ce qui lui donne de bonnes propriétés. Elle est cependant un exemple typique de loi n'admettant pas de moments, en particulier ni moyenne, ni variance. Son support est la droite réelle et sa densité est symétrique et définie par : .
La loi de Tukey-Lambda est une loi à densité mais cette dernière n'a pas d'expression analytique. Cette loi dépend d'un paramètre, son support est soit un intervalle borné centré à l'origine, soit la droite réelle (en fonction du paramètre). La loi de Tuckey-Lambda est définie à partir de ses quantiles : .
Certaines lois sont regroupées par famille par rapport à certaines propriétés. Une loi est dite de la famille exponentielle à un paramètre[42] si sa densité de probabilité ou sa fonction de masse ne dépend que d'un paramètre et est de la forme :
Cette famille regroupe beaucoup de lois classiques : loi normale, loi exponentielle, loi gamma, loi du χ², loi bêta, loi de Bernoulli, loi de Poisson, etc.
Une loi est dite de la famille puissance à deux paramètres[42] et
si sa densité est de la forme :
Il existe des lois de probabilité qui ne sont ni discrètes, ni à densité, elles sont parfois appelées lois mixtes[43] ou lois singulières[44].
Un premier exemple est une loi de probabilité obtenue en "mélangeant" une loi discrète et une loi à densité. Par exemple en considérant la loi de la somme de deux variables aléatoires, l'une discrète, l'autre à densité[44] :
La présence de assure de garder
. La fonction de répartition est une fonction continue par morceaux[45], mais non constante par morceaux qui est le cas des fonctions de répartition des lois discrètes.
Intuitivement, cela correspond à un phénomène aléatoire dont la loi est à densité. Cependant l'appareil de mesure ne peut mesurer les données qu'à partir d'un certain seuil c. toutes les mesures non détectées par l'appareil seront assignées à c, ainsi la loi est nulle sur toute partie "plus petite" que c alors qu'un saut apparait au singleton c. Les mesures suivent la loi à densité pour les valeurs plus grandes que c[43]. Dans cet exemple la fonction de répartition est discontinue en c.
Le deuxième exemple est une loi singulière dont la fonction de répartition est continue mais non absolument continue. La loi de Cantor est définie à partir de l'ensemble de Cantor : . Lorsque
sont des variables indépendantes et identiquement distribuées de loi uniforme discrète sur
, alors
est une variable aléatoire de loi de Cantor[46]. Cette loi de probabilité[47] s'écrit sous la forme , c'est la loi uniforme sur l'ensemble de Cantor. Sa fonction de répartition est l'escalier de Cantor, elle est dérivable presque partout et de dérivée nulle presque partout[46].
Ce type de loi n'est pas très courant dans les applications, les lois continues ne contiennent pas de partie singulière[44]. L'ensemble de Cantor apparait toutefois dans certains exemples bien connus : l'ensemble des zéros du mouvement brownien est un ensemble de type Cantor.
D'un point de vue plus général, toute loi de probabilité peut se décomposer en une somme de trois lois de probabilité[44], une loi discrète
, une loi absolument continue (ou à densité)
et une loi singulière
:
Il existe plusieurs fonctions à variables réelles ou complexes qui caractérisent les lois de probabilités. Les propriétés de certaines de ces fonctions permettent de déduire des propriétés pour les lois comme les moments ou une caractérisation de la convergence en loi.
D'après le lemme de classe monotone, les ensembles (appelés pavés) engendrent[48] la tribu borélienne
, il suffit alors de définir une loi de probabilité sur les pavés. La fonction
est appelée la fonction de répartition de la loi
, elle en est caractéristique, c'est-à -dire : deux lois de probabilités sont égales si et seulement si les fonctions de répartitions sont égales[48].
Plus généralement, toute fonction F croissante, continue à droite en tout point et telle que et
, est appelée fonction de répartition et définit[49], de manière unique, une loi de probabilité sur
.
Dans le cas où la loi de probabilité est définie à partir d'une variable aléatoire, le théorème de transfert (voir ci-dessus) assure[50] qu'il est suffisant de définir la loi par la fonction pour les fonctions indicatrices
.
Un des avantages de cette fonction est qu'elle existe pour toute loi de probabilité, elle n'a cependant pas toujours d'expression analytique comme pour la loi normale par exemple. Cette caractérisation permet de pourvoir effectuer des calculs plus aisément et permet également de caractériser[51] la convergence des lois de probabilités via le théorème porte-manteau.
La fonction caractéristique d'une loi de probabilité est la transformée de Fourier de la mesure :
. Comme son nom l'indique, la fonction caractéristique caractérise la loi[51],[52], c'est-à -dire : deux lois de probabilité sont égales si et seulement si leurs fonctions caractéristiques sont égales.
Dans le cas où la loi de probabilité est définie à partir d'une variable aléatoire, la fonction caractéristique est en fait la fonction du théorème de transfert (voir ci-dessus) lorsque la fonction intégrée est .
Un des avantages de la fonction caractéristique est qu'elle existe pour toute loi de probabilité[51] De plus, en utilisant la formule d'inversion de la transformée de Fourier[52], la loi de probabilité s'obtient à partir de la fonction caractéristique. Cette caractérisation permet également de caractériser[51] la convergence des lois de probabilités via le théorème porte-manteau.
La fonction génératrice des moments d'une loi de probabilité est la "symétrie" de la transformée de Laplace de la mesure[46],[53] :
; lorsque la fonction
est intĂ©grable par rapport Ă
. La fonction génératrice des moments caractérise la loi de probabilité si elle existe sur un intervalle contenant l'origine[51].
Un des avantages de cette fonction génératrice des moments est qu'elle permet de retrouver les moments de la loi de probabilité par les dérivées[53] : . De plus, pour des lois définies à partir de variables aléatoires, cette fonction permet aisément de montrer l'indépendance des variables[53]. Cette caractérisation permet également de caractériser[51] la convergence des lois de probabilités via le théorème porte-manteau.
Il existe un cas particulier pour le cas des lois discrètes. La fonction génératrice des probabilités d'une loi de probabilité discrète est définie[53] comme l'espérance de la série génératrice :
, sous réserve d’existence de cette série. Cette fonction génératrice caractérise la loi de probabilité[53].
Certaines lois de probabilité sont plus faciles à définir, via leur fonction quantile. La fonction quantile est[54] la fonction qui donne le p-quantile de la loi pour toute valeur
. Intuitivement,
est la valeur telle qu'une proportion u des valeurs possibles de la loi lui soient inférieures. Pour
,
est la médiane de la loi. Plus formellement[55] :
C'est l'inverse continue à droite de la fonction de répartition de la loi. Lorsque la loi est à densité, la fonction quantile est la fonction réciproque de la fonction de répartition[54].
Cette fonction est caractéristique de la loi associée[55] au sens où, si U est une variable aléatoire de loi uniforme continue sur [0,1], alors
est une variable aléatoire de loi
initiale.
Cette caractérisation est particulièrement utile pour simuler des lois de probabilité[56] puisqu'il suffit alors de simuler une loi uniforme continue (voir la section ci-dessous sur la simulation des lois de probabilités). De plus certaines lois n'ont pas de fonction de répartition explicite mais sont définies à partir de leurs quantiles, c'est le cas de la loi de Tukey-Lambda.
La répartition statistique d'une variable au sein d'une population est souvent voisine des modèles mathématiques des lois de probabilités[57]. Il est souvent intéressant, pour des raisons théoriques et pratiques, d'étudier le modèle probabiliste, dit théorique[58]. L'étude commence alors par une sélection au hasard de plusieurs valeurs ou individus. Si la méthode utilisée est parfaite, c'est-à -dire que ces valeurs observées sont issues d'une sélection équiprobable[57], alors elles sont des variables aléatoires et l'étude du phénomène revient à étudier la loi de probabilité.
Afin d'étudier les lois de probabilité, il est important de pouvoir les simuler, ceci est dû notamment à l’utilisation de l'informatique dans les sciences. Comme indiqué ci-dessus, les lois de probabilité sont caractérisées par la fonction quantile via une variable aléatoire de loi uniforme continue. Cette méthode générale comprend deux étapes[59] : la génération de valeurs dites pseudo-aléatoires de loi uniforme et l'inversion de la fonction de répartition de la loi étudiée. Cette deuxième étape n'a pas évidente à réaliser pour toutes les lois, d'autres méthodes sont alors utilisées.
« Quiconque considère des méthodes arithmétiques pour produire des nombres aléatoires est, bien sûr, en train de commettre un péché. »
— John von Neumann
Pour obtenir des valeurs suivant la loi uniforme continue, l'ordinateur simule des valeurs de la loi uniforme discrète. Plusieurs méthodes ont été utilisées[60] : l'utilisation de tables de données qui pouvaient en contenir plus d'un million est de moins en moins utilisée ; l'utilisation de processus physique comme la création d'un bruit électronique est assez couteuse pour la récupération des données ; l'utilisation d'algorithmes arithmétiques est la méthodes la plus simple. Ces algorithmes étant déterministes (non-aléatoires), les valeurs obtenues sont appelées pseudo-aléatoires. De nombreux algorithmes ont été créés pour améliorer l'indépendance entre les valeurs et leur répartition dans l'intervalle [0,1].
Lorsque la fonction de répartition est inversible, on utilise la caractérisation par la fonction quantile. Donnons quelques exemples dans le cas où cette fonction n'est pas inversible : la méthode de Box-Muller permet de simuler la loi normale[61], la méthode de rejet de von Neumann est fondé sur un test statistique et est applicable pour plusieurs lois[62], d'autres méthodes spécifiques aux lois existent[63].
Un exemple célèbre d'utilisation d'une simulation de loi de probabilité est la méthode de Monte-Carlo, par exemple pour approcher la valeur de π. La méthode consiste a simuler un grand nombre de valeurs suivant une loi uniforme continue sur [0,1] et de compter la proportion des couples d'entre eux qui vérifient
. Cette proportion se rapproche de π/4 lorsque le nombre de point tend vers l'inifni[64].
Plusieurs approximations d'une loi de probabilité existent en utilisant les différentes caractérisations détaillées ci-dessus. C'est généralement les techniques utilisées dans les cas pratiques. La première étape est la récolte des données, ce qui permet de construire les objets empiriques comme la fonction de répartition empirique. Ces derniers sont parfois appelés, par abus de langage, des lois de probabilité mais ce sont en fait des lois empiriques appelées distributions statistiques[57]. Des théorèmes limites ou des tests statistiques permettent finalement d'identifier la meilleure loi de probabilité qui modélise le phénomène aléatoire initial[58].
« Les probabilités doivent être regardées comme analogues à la mesure des grandeurs physiques, c'est-à -dire qu'elles ne peuvent jamais être connues exactement mais seulement avec une certaine approximation »
— Émile Borel[65]
Le test statistique de Kolmogorov-Smirnov, basée sur le théorème porte-manteau, permet d'identifier la fonction de répartition empirique calculée à partir des données à une fonction de répartition d'une loi de probabilité, en fonction d'un taux de rejet. L'avantage de la convergence des fonctions de répartition est que ces fontions existent pour toutes lois de probabilités. Cette convergence permet en particulier d'approcher une loi à densité par une suite de lois discrètes[66].
Différents théorèmes de convergence de variables aléatoires permettent de construire une suite de lois de probabilité qui converge vers une loi donnée, ou inversement de construire une loi comme limite de lois de probabilité. Le théorème central limite concerne la loi normale pour loi limite. Le théorème de continuité de Paul Lévy concerne la convergence des fonctions caractéristiques.
La régression quantile permet d'approcher les quantiles de la loi par les quantiles empiriques, c'est-à -dire calculés à partir d'éventuelles données. On peut utiliser un test statistique pour comparer les quantiles empiriques (observés) avec les quantiles de la loi qui est supposée modéliser le phénomène.
Cette approche est particulièrement utile pour étudier certaines lois qui ne sont pas connues explicitement par leur densité ou leur fonction de répartition mais par leurs quantiles, c'est le cas de la loi de Tukey-Lambda.
Plusieurs tests statistiques existent pour comparer deux lois. Plus précisément, les tests d'adéquation permettent de comparer une loi empirique (c'est-à -dire calculée à partir des données issue d'échantillons) à une loi de probabilité dite a priori qui est censée modéliser le phénomène étudié. Les deux principaux tests sont : le test de Kolmogorov-Smirnov mentionné ci dessus qui compare les fonctions de répartition, et le test d'adéquation du χ² qui compare les effectifs observés avec une loi du χ². Parmi ces tests, ceux qui concernent la loi normale sont dits tests de normalité.
D'autres tests, les tests d’homogénéité, permettent de comparer deux lois empiriques pour savoir si elles sont issues du même phénomène, ou de manière équivalente, si elles peuvent être modélisées par la même loi de probabilité a priori. Ces tests comparent certaines propriétés des lois empiriques par rapport à la propriété de la loi a priori. Ce sont des tests utilisés dans la pratique puisqu'ils permettent de comparer non pas des lois entières mais des valeurs issues des lois[67] : le test de Fisher estime le rapport des variances empiriques via la loi de Fisher[67], le test de Student estime la moyenne empirique via la loi de Student[68], etc.
Les lois de probabilité permettent de représenter des phénomènes aléatoires. L'entropie de Shannon d'une loi de probabilité a été introduite en thermodynamique pour quantifier l'état de désordre moléculaire d'un système[69]. Le but est de représenter par une fonction la quantité d'information de la loi de probabilité. L'entropie a d'abord été définie pour les lois discrètes puis étendue pour les lois à densité. Pour une loi discrète et une loi
de densité
, l'entropie H est définie respectivement par[69],[70] :
En quelque sorte, ces lois ne contiennent pas plus d'information que ce qui est obligatoire. Ce sont les moins prévenues de toutes les lois compatibles avec les observations ou les contraintes, et donc les seules admissibles objectivement comme distributions de probabilités a priori lorsque ces valeurs sont imposées et seules connues. Cette propriété joue un grand rôle dans les méthodes bayésiennes.
Les lois de probabilité sont utilisées pour représenter les phénomènes observés. Une loi de probabilité, dite a priori, est supposée modéliser les données récupérées, des tests statistiques sont alors réalisés pour affirmer ou infirmer la concordance de la loi de probabilité avec les données.
Dans bien des domaines, les méthodes ont évoluées et de meilleures lois de probabilité ont été créées afin de mieux correspondre au problème posé. Voici une liste non exhaustive d'exemples concrets qui proposent des modélisations.
La bourse est une institution qui permet d'échanger des biens ou des titres. Afin de mieux estimer le prix futur d'un bien ou d'un titre, une étude de l'évolution historique de son prix est réalisée, notamment par la modélisation des variations des cours des prix. Ces variations ont d'abord été modélisées par une loi normale (Bachelier, 1900), puis une amélioration a été faite avec les lois stables de Pareto (Mandelbrot, 1963). Depuis, de nouveaux modèles sont toujours recherchés pour améliorer la perception des risques[a 1].
Pour jouer au loto français, il faut choisir six numéros parmi les quarante neuf possibles. Si les joueurs choisissent leurs numéros au hasard, c'est-à -dire avec une loi uniforme, alors le nombre de gagnant suit une loi de Poisson. Grâce à cette considération, une étude peut être réalisée puisque le nombre de gagnants est une donnée connue. Il apparait que le choix n'est pas uniforme mais que les petits numéros ont été plus choisis[a 2].
Une bonne compréhension de la dégradation permet d'améliorer la performance de la maintenance. Plusieurs lois a priori ont été utilisées pour modéliser l'évolution de la fissure des chaussées : la loi exponentielle, la loi de Weibull, la loi log-normale, la loi log-logistique, etc. Cette dernière semble convenir le mieux en utilisant une méthode de maximum de vraisemblance[a 3].
Pour tester l'efficacité des médicaments, un essai clinique est réalisé auprès de d'un échantillon d'utilisateurs. Cette méthode fait partie de la théorie de la décision. Une des méthodes est de sélectionner un malade de réaliser un test avec deux issues (succès ou échec), c'est-à -dire de modéliser par une loi de Bernoulli, puis de recommencer le plus de fois possibles ; c'est la méthode des urnes de Bernoulli. Une meilleure méthode est d'utiliser la loi hypergéométrique, ce choix permet de ne considérer qu'une population d'individus de taille fixée préalablement[a 4].
En hydrologie, la pluviométrie est l'étude de la quantité d'eau issue de la pluie tombée en un point du sol pendant une durée de temps fixée. Le choix de la loi a priori ne fait pas consensus au sein de la communauté scientifique internationale. Certains auteurs préconisent l'utilisation de la loi log-normale qui s'ajuste bien pour les petites valeurs. D'autres proposent la loi gamma qui s'ajuste bien sur les valeurs expérimentales. L'utilisation de la loi de Pareto a son intérêt pour représenter les valeurs moyennes[a 5].
Cet article est issu de l'encyclopédie libre Wikipedia.