comment calculer

 Niveau autrePartager :
			        
comment calculer 
Posté par 
tirouxx  01-09-12 à 13:01
Bonjour à tous,

Tout d'abord je tiens à m'excuser si je ne poste pas ce message dans la bonne section...

Donc je fais appel à vous car je ne suis pas très bon en stats (ca fait 5 ans que je n'ai plus fait de maths) et j'éprouve quelques difficultés pour rédiger ma thèse.

Je souhaite définir si il y a une différence statistique significative "p" < 0.05 entre 2 échantillons dans différentes situations :

1) Par exemple, comment définir ce "p" pour comparer au sein d'un groupe de 86 patients : 

21 décès sur 53 hommes 

11 décès sur 33 femmes 

Il faut faire le test de Chi2?

2) Je voudrais également comparé des valeurs moyennes :

exemple : age moyen de 66 ans dans un groupe de XX personnes, age moyen de 52 ans dans un groupe de XX personnes.

3) Enfin, je voudrais aussi calculer p pour des valeurs exprimés en médiane +- ecart type.

Merci d'avance !
 Posté par 
tirouxxre : comment calculer   01-09-12 à 13:07
Désolé pour le titre j'ai cliqué sur "poster" par inadvertance avant d'avoir fini de le rédiger et je ne parviens pas à le modifier...

Ca va être difficile d'avoir des réponses à un topic intituler "comment calculer" mais bon on verra bien... 
 Posté par 
Iamatre : comment calculer   01-09-12 à 14:29
1) Pour la j'utiliserais la formule suivante

(C(53;21)*C(33;11))/C(53+33;21+11)

Ce nombre est-il<0.05?

Avec C(n;p)=n!(p!(n-p)!)
 Posté par 
Iamatre : comment calculer   01-09-12 à 14:30
Avec C(n;p)=n!/(p!(n-p)!)
 Posté par 
LeDinore : comment calculer   01-09-12 à 15:16
Citation :
86 patients : 

21 décès sur 53 hommes 

11 décès sur 33 femmes 

Il faut faire le test de Chi2 ?

Oui ...

Tu fais le tableau des effectifs observés en croisant SEXE (H/F) et DECES (O/N).

Tu fais le même tableau des effectifs "théoriques" ou "attendus" (s'il y avait indépendance) en appliquant aux effectifs d'hommes et de femmes, le taux de décès théorique global qui est 33/86.

Le Khi2 mesure la "distance" entre les deux tableaux : théorique et observé.

Si ce Khi2 est trop grand : il n'est pas vraisemblable et tu rejettes l'hypothèse d'indépendance.

Pour savoir s'il faut rejeter on regarde le seuil de probabilité correspondant au test et qu'on appelle p-value. 

Si la p-value est inférieure au seuil de risque qu'on s'est fixé a priori, alors on peut rejeter l'hypothèse d'indépendance (au seuil de confiance correspondant).

Dans un tableur, tu as une fonction qui te donne directement le résultat du test, c'est à dire la p-value du test.

En entrée tu lui fournis la plage observée et la plage attendue, et il calcule lui même les degrés de liberté du Khi2 ainsi que le test.

Tu peux aussi faire le calcul toi même, puis tester la valeur du Khi2 totale et la comparer en table...

Dans ton tableau, la simple comparaison de visu des chiffres attendus et observés montre immédiatement que tu ne pourras surement pas rejeter l'indépendance avec ces chiffres.

C'est largement confirmé par le test qui donne Khi2=0,34 (relativement faible) et p-value = 0,55 donc beaucoup trop grand pour être rejeter l'hypothèse.

Il n'y a donc pas de lien statistique entre le sexe et les décès d'après ce jeu de données.

A toi de le refaire : lis ce qu'est un test de Khi2 et comment ça marche.

Ensuite fais le par toi même sur tableur.

Et compare avec les valeurs que j'ai trouvées...

Pour la suite : comparaison de moyennes...
C'est un peu le même principe, mais la "distance" entre attendu et observé est un peu différente à calculer, puis à tester... 

On parle plutôt d'analyse de variance...
 Posté par 
LeDinore : comment calculer   01-09-12 à 19:03
Avec des tableaux c'est plus parlant...

Voici tes chiffres, dits "observés" (OBS) dans le tableau de gauche.

Au milieu, le tableau dit "théorique" (THEO) ou "attendu".

C'est le tableau d'effectif de décès que tu aurais (en théorie) si le décès ne dépendait pas du sexe.

A droite, c'est la distance entre les deux mesurée par : (OBS-THEO)²/THEO  pour chaque cellule.

La somme des cellules donne le Khi2 des deux tableaux comparés.

Ici le Khi2 est faible. Donc la différence entre théorique et observé est faible.

Donc l'hypothèse d'indépendance (qui correspond au "théorique") ne peut être rejetée.

Ce que confirme la p-value associée (trop forte pour conclure à un rejet d'hypothèse).

Conclusion : Le décès est indépendant du sexe.

Plus précisément, on ne peut rejeter l'hypothèse d'indépendance (donc on la garde ...)

Voici un deuxième exemple où j'ai changé tes chiffres observés...

Dans celui-ci, la différence entre observé et théorique est telle... (Khi2 élevé), 

... que la p-value associée est très faible (0,0008).

Celà signifie que si tu avais fixé un seuil de risque au niveau de 1% par exemple, tu aurais clairement rejeté l'hypothèse d'indépendance.

Dans cet exemple, le décès est plus fort pour les hommes et ce n'est pas du au hasard.

La variable décès est influencée par la variable sexe.

NB: 

Fixer le seul de confiance de la décision d'abord (par exemple 99%).

Tester ensuite.

Ne pas déduire une probabilité d'après la p-value : celà fausserait tout (même si la p-value ressemble à une probabilité)...
 Posté par 
LeDinore : comment calculer   01-09-12 à 22:25
Citation :
2) Je voudrais également comparé des valeurs moyennes :

exemple : age moyen de 66 ans dans un groupe de XX personnes, age moyen de 52 ans dans un groupe de XX personnes.

... je précise que pour comparer les moyennes des deux groupes, il faut également connaître leur variance.
 Posté par 
tirouxxre : comment calculer   02-09-12 à 12:59
Merci à vous deux pour les réponses!

@ lamat : j'avoue que j'ai pas trop compris la réponse, je ne sais plus ce que signifie "!" pour te dire mon niveau en maths !

@ LeDino : Je te remercie vraiment pour la réponse. J'ai réussi assez facilement à retrouver le p=0.557 en jouant un peu avec excel.

Pour ce test de Khi2, y a t'il des cas ou on ne peut pas l'utiliser (en fonction des valeurs de chaque cellule?)

Par exemple :

Candida glabrata : 0 décès sur 11

Autres Candida : 32 décès sur 76

J'obtiens avec la même méthode p = 0.007

donc si je fixe le seuil de confiance à 95%, je peux affirmer que le décès est dépendant de l'espèce de Candida?

Ou alors le fait que le nombre d'une cellule soit "0" rend inutilisable ce test?

"je précise que pour comparer les moyennes des deux groupes, il faut également connaître leur variance." --> donc si je comprend bien, si j'ai simplement la répartition des ages des 86 patients ayant développé un Candida mais seulement la moyenne d'age des autres patients, je ne peux pas affirmer que l'age avancée est un facteur de risque de développer un Candida (désolé si ca s'écarte un peu trop des maths)

J'ai par exemple comme valeur : 

-age moyen des 86 patients ayant développé Candida : 66.3 ans

-age moyen des 3254 patients n'ayant pas développé de Candida : 52.12

Je ne peux donc rien tirer de ces valeurs d'un point de vue statistique si je n'ai pas la répartition exact de l'âge des 3254 patients?

D'autre part, je ne sais toujours pas comment calculer le p value lorsque mes valeurs sont exprimés en médiane +- ecart type?

Par exemple : 

durée d'hospitalisation de 17 +-25 jours chez un sous groupe de 73 sujets et 7+-12 jours chez un autre sous groupe de 14 sujets? 

La différence est elle significative entre les 2 groupes d'un point de vue statistique? Comment trouver le résultat?

D'avance, je te remercie. Bonne journée.
 Posté par 
LeDinore : comment calculer   02-09-12 à 22:52
Citation :
Candida glabrata : 0 décès sur 11

Autres Candida : 32 décès sur 76

J'obtiens avec la même méthode p = 0.007

donc si je fixe le seuil de confiance à 95%, je peux affirmer que le décès est dépendant de l'espèce de Candida?

Ou alors le fait que le nombre d'une cellule soit "0" rend inutilisable ce test ?

A priori ton test est correct. Je trouve la même valeur de p. Ta décision de rejet est juste, au seuil que tu t'es fixé (95%).

Donc a priori je dirais comme toi que sur ce jeu de données, la chute de décès sur glabrata est anormale statistiquement, et n'est donc probablement pas le seul fait du hasard.

N'oublies pas que tu dois toujours fixer ce seuil avant de faire le test.
Ici tu avais de la marge : un seuil à 99% aurait conduit aussi au rejet de l'indépendance.

Il n'est pas correct "d'adapter" ton seuil de décision pour que la conclusion penche du coté "qui t'arrange" en fonction de la p-value...

Mais sinon, en dehors de cet éventuel détail (que tu sembles avoir respecté dans la logique...), je pense que le test est correct au plan statistique.

La valeur zéro dans une cellule n'est pas un problème en soi : au contraire celà accrédite que Glabrata a tendance à protéger du décès...

Après, la question est aussi de savoir quelles sont les pratiques "métier" du domaine dans lequel tu interviens.

Peut-être qu'un seuil de confiance meilleur est exigé...

Peut-être que des effectifs minimums sont requis...

Ainsi, si tu considères par exemple que des erreurs de relevés sont possibles, alors les résultats de ton étude sont bien plus sensibles à un changement d'une unité que si les effectifs étaient doubles ou triples...

Par exemple, si tu passes de 0 décès sur 11 à 1 sur 11, la p-value est multipliée par 5,

et une décision au seuil de 99% ne serait par exemple plus possible...

Avec des effectifs doubles, tu n'aurais pas ce souci...

A voir peut-être avec ton tuteur ou avec des spécialistes du domaine étudié...

 Posté par 
LeDinore : comment calculer   02-09-12 à 23:15
Je viens de retrouver ceci sur les conditions d'application du test de Khi2 :

Echantillon de taille au moins égale à 50.

Effectifs théoriques tous au moins égaux à 5.

NB: pour la limite de 5, on parle bien des effectifs théoriques (pas des observés).

La première condition est vérifiée sur tes deux exemples.

La deuxième est vérifiée sur le premier exemple.

Sur l'exemple de Glabrata, la deuxième condition est presque respectée : 

un seul effectif théorique est tout juste en dessous de la limite (4,05 Glabrata décédés attendus...).

Je ne pense pas que ça invalide le résutat...

... mais celà l'expose un peu à la critique.
 Posté par 
LeDinore : comment calculer   02-09-12 à 23:41
Citation :
donc si je comprend bien, si j'ai simplement la répartition des ages des 86 patients ayant développé un Candida mais seulement la moyenne d'age des autres patients, je ne peux pas affirmer que l'age avancée est un facteur de risque de développer un Candida (désolé si ca s'écarte un peu trop des maths)

J'ai par exemple comme valeur : 

-age moyen des 86 patients ayant développé Candida : 66.3 ans

-age moyen des 3254 patients n'ayant pas développé de Candida : 52.12

Je ne peux donc rien tirer de ces valeurs d'un point de vue statistique si je n'ai pas la répartition exact de l'âge des 3254 patients ?

Pour moi, un test de comparaison de moyennes entre deux populations implique qu'on connaisse la variance de chaque population.

L'idée est de dire : 
X1 a pour moyenne E1 et pour écart-type S1 sur un effectif N1.

X2 a pour moyenne E2 et pour écart-type S2 sur un effectif N2.

Alors si les deux populations ont même moyenne, X1-X2 devrait être de moyenne nulle.

Et surtout :   = E(X1-X2) / S(X1-X2)  devrait suivre une loi normale centrée réduite.

Avec :        S(X1-X2) = (S1²/N1 + S2²/N2)
Il reste à faire le calcul de cette quantité  et à regarder si sa valeur est "normale" au seuil de confiance fixé a priori.

J'ignore comment on fait lorsque les variances sont inconnues.
Si une méthode existe, il faut la rechercher.

Sinon, tu peux éventuellement t'en sortir en faisant une série d'hypothèses sur les variances :
Tu fais quelques scénarios, par exemple : un "pessimiste", un "optimiste" et un "raisonnable" entre les deux.

Puis tu mènes le calcul au bout pour chaque scénario.

Selon les valeurs obtenues, il est possible que tu puisses conclure...

Attention, c'est une idée à moi comme ça, et ça n'a pas valeur théorique.

Mais à défaut de mieux, ça mérite d'être fait pour te donner une idée quand même ...

A toi de jouer...
 Posté par 
LeDinore : comment calculer   03-09-12 à 00:30
Citation :
J'ai par exemple comme valeur : 

- age moyen des 86 patients ayant développé Candida : 66.3 ans

- age moyen des 3254 patients n'ayant pas développé de Candida : 52.12

Je ne peux donc rien tirer de ces valeurs d'un point de vue statistique si je n'ai pas la répartition exact de l'âge des 3254 patients ?

Voilà ce que tu sais :
N1 = 86

E1 = 66,3

N2 = 3254

E2 = 52,1

Pour les deux populations, on peut supposer que l'écart-type n'est guère plus grand que 20 : 
Prendre S1=20 :  équivaut à 95% de la population 2 entre 26 et 106 ans.

Prendre S2=20 :  équivaut à 95% de la population 2 entre 12 et 92 ans.

Tu peux déjà faire le calcul avec ces valeurs comme référence.

Au pire prendre ensuite s1=s2=30 comme super majorants, dans une variante très "pessimiste", afin de couper court à toute objection potentielle.

Calcul avec hypothèses "raisonnables" de S1=S2=20 : 
S² = S1²/N1 + S2²/N2 = 20²/86 + 20²/3254 = 4,8

EPS = (E1-E2)/S = (66,3 - 52,1)/2,2 = 6,9

p-value (EPS Normale) : < 10-12

L'hypothèse d'égalité peut largement être rejetée.

Les moyennes sont très certainement différentes.

Calcul avec hypothèses "très rigoureuses" de S1=S2=30 : 
S² = S1²/N1 + S2²/N2 = 30²/86 + 30²/3254 = 10,7

EPS = (E1-E2)/S = (66,3 - 52,1)/3,3 = 4,6

p-value (EPS Normale) : ~ 2.10-6

L'hypothèse d'égalité peut encore largement être rejetée, même à un seuil de 99,9%...

Les moyennes sont là encore certainement différentes, même avec l'hypothèse très rigoureuse"...

A recouper de ton coté, et à valider avec le point de vue de spécialistes de ton domaine d'étude ...
  Posté par 
LeDinore : comment calculer   03-09-12 à 01:32
Citation :
D'autre part, je ne sais toujours pas comment calculer le p value lorsque mes valeurs sont exprimés en médiane +- ecart type?

Par exemple : 

durée d'hospitalisation de 17 +-25 jours chez un sous groupe de 73 sujets et 7+-12 jours chez un autre sous groupe de 14 sujets? 

La différence est elle significative entre les 2 groupes d'un point de vue statistique? Comment trouver le résultat ?

Il faut regarder ce que disent la théorie et la pratique.

Je crois qu'on utlise Wilcoxon pour un test de médiane.

Mais je crois aussi qu'il faut connaître le détail des rangs pour ça (à vérifier)...

A défaut, une extrapolation de la comparaison de moyennes doit donner une idée :
 = E(X1-X2)/S(X1-X2)

S(X1-X2) = (S1²/N1 + S2²/N2)

S est calculable puisque tu connais S1, S2, N1 et N2.

E1-E2 n'et pas calculable.

Mais tu peux faire l'hypothèse que celà vaut : x fois (M1-M2), avec x = 1 minorant raisonnable.

Exemple de calcul avec x = 1 (valeur plutot pessimiste pour le test) :
E2-E1 = x(M2-M1) = 1.(M2-M1) = 1.(17-7) = 10

S = (S1²/N1 + S2²/N2)1/2 = 4,3

 = 2,3

p-value = 0,01

Permet de conclure à la différence de moyenne au seuil de 95%...

Mais ce serait quans même mieux d'avoir l'avis de quelqu'un connaissant le domaine .