Niveau Licence-pas de math

statistiques, covariance et coefficient de corrélation

Posté par
Lauragez 26-11-20 à 10:02

Bonjour tout le monde,
Je me mélange un peu les pinceaux concernant les formules de covariance (probablement due à une confusion entre cov estimée sur échantillon vs celui de la population ?)
Je m'explique :
Lorsque dans les exercices on nous demande calculer le coefficient de corrélation linéaire R (= COV(XY)/SxSy), les données de l'énoncé me permettent très souvent de l'obtenir en appliquant « bêtement » R = SPExy/ racine de SCEx.SCEy
Seulement voilà, dans certaines questions isolées, il arrive que l'on ne me donne QUE les moyennes, écarts types et la somme des xiyi d'un échantillon annexe et dans la correction (assez succincte), ils utilisent la formule COV(XY) = (somme xiyi/ n) - mxmy, mais quand j'utilise cette formule, mon R est faux (car j'utilise
J'ai émis l'hypothèse que c'était parce que j'utilisais des écarts types estimés (calculés sur des questions situées plus haut avec n-1 ou donnés) et que cette formule de COV donnée était plutôt valide sur une population… Mais dans ce cas-là, quelle formule de COV utiliser avec "si peu" de données?

J'espère m'être fait comprendre, grosse confusion entre les différentes formules qui existent, erreur dans la correction ou mauvaise compression de ma part ?
Merci de m'avoir lue !

Posté par re : statistiques, covariance et coefficient de corrélation 26-11-20 à 11:54

Du point de vue théorique, tu travailles avec une mesure de probabilité $\mathbb{P}$ et pour toute variable aléatoire $X$ $\mathbb{P}$ -intégrable, l'espérance de $X$ est par définition $\mathbb{E}(X) = \int_{\Omega} X(\omega) \mathbb{P}(d\omega)$ . Ensuite, tu peux réécrire autrement cette intégrale grâce au théorème de transfert qui te permet d'intégrer sur les valeurs que prend $X$ plutôt que sur l'univers abstrait $\Omega$ .

Par exemple, quand tu as une varieble de loi uniforme sur $\{1,\cdots,n\}$ , tu as
$\displaystyle\mathbb{E}(X) = \sum_{k=1}^n k\mathbb{P}(X=k) = \sum_{k=1}^n k\dfrac1n = \dfrac1n \sum_{k=1}^n k = \dfrac1n \dfrac{n(n+1)}2 = \dfrac{n+1}2$

et

$\displaystyle\mathbb{E}(X^2) = \sum_{k=1}^n k^2\mathbb{P}(X=k) = \sum_{k=1}^n k^2\dfrac1n = \dfrac1n \sum_{k=1}^n k^2 = \dfrac1n \dfrac{n(n+1)(2n+1)}6 = \dfrac{(n+1)(2n+1)}6$

Donc $\displaystyle\textrm{Var}(X) = E(X^2)-E(X)^2 = \dfrac{(n+1)(2n+1)}6 - \dfrac{(n+1)^2}{4} = \dfrac{n+1}2 \cdot \left(\dfrac{2n+1}3 - \dfrac{n+1}2\right) = \dfrac{n+1}2 \cdot \dfrac{n-1}{6} = \dfrac{n^2-1}{12}$ .

Ca c'est un exemple de calcul exact, avec une loi connue et facile.
Ce n'est pas toujours comme ça malheureusement, et en pratique tu ne connais pas la loi de X.
Cependant, tu es capable d'estimer l'espérance de n'importe quelle variable aléatoire intégrable grâce à des estimateurs statistiques. Par exemple l'estimateur de Monte-Carlo $\bar{X}_N = \dfrac1N \sum_{k=1}^N X_i$ , où les X_i sont iid de même loi que X ; qui converge presque sûrement (ou en probabilité, ou en loi) vers $\mathbb{E}(X)$ .
Tu as aussi des estimateurs de la variance, le TCL, etc... Je ne vais pas te faire un cours entier ici
Plus tu prends N grand et meilleure est l'estimation, mais ce n'est pas tout. L'estimateur aussi peut être plus ou moins bon (biaisé, sans biais, erreur quadratique, etc).

Pour le reste, je ne comprends pas ta question, il y a des erreurs de typo non corrigées.

Posté par re : statistiques, covariance et coefficient de corrélation 26-11-20 à 19:02

Merci beaucoup;
Avec deux petits exemples d'application, je serais peut être plus claire sur ce qui me pose problème :

Exemple 1:
A l?entrée dans la cohorte, on a mesuré la pression artérielle diastolique Pa des patients.
La moyenne obtenue chez les 30 patients ayant eu des complications est égale à 105 mmHg avec un écart type estimé de 10 mmHg.
Existe-t-il une corrélation linéaire entre la glycémie GL et la pression artérielle diastolique Pa chez les patients ayant eu des complications graves ? (risque ? 0,01). On donne PaGL= 28155. (En raison des effectifs des 2 groupes, on utilisera l?écart-type estimé.)

Dans la correction , le coefficient de corrélation r est calculé de la façon suivante :
On note x = Pa et y=GL

$r= \frac{cov(x,y)}{S{x}.S{y}}    = \frac{\frac{\Sigma xiyi}{n} -\bar{x}.\bar{y}}{S{x}.S{y}}$

Pour moi,  cela donne une estimation biaisée... je ne comprends donc pas son utilisation

Exemple 2:
Et dans l'exercice suivant:
Pour vérifier la linéarité d'une méthode dosage, on prépare 6 étalons  :

calcul de r par :
$r = \frac{n\Sigma xy-\Sigma x\Sigma y}{\left(n\Sigma x^{2}-(\Sigma x)^{2} \right)^{1/2}.\left(n\Sigma y^{2}-(\Sigma y)^{2} \right)^{1/2}}$

Je crois que mon incompréhension tient au fait que je n'arrive pas à comprendre l'égalité suivante (une notion doit m'échapper) : cf. image

** image supprimée **lire Q05 [lien] **

Posté par re : statistiques, covariance et coefficient de corrélation 27-11-20 à 10:13

*l'égalité :
$cov(x,y)=(\frac{1}{n}\sum{xy}) - ((\frac{1}{n}\sum{x})( \frac{1}{n}\sum{y}))$
et
$cov(X,Y)= \frac{\sum_{i=1}^{n}{x_{i} y_{i} } -\frac{ \left( \sum_{i=1}^{n}{x_{i}} \right) \left( \sum_{i=1}^{n}{y_{i}} \right) }{n} }{n}$