Bonjour,
Quelle est la différence entre l'écart-type "biaisé" Σ(xi-m)²/n (avec n au dénominateur) et celui "non biaisé" Σ(xi-m)²/(n-1) (avec n-1 au dénominateur)?
Je tiens à signaler qu'étant en MP je ne connais pas grand chose en statistiques mais que j'aurais besoin d'une réponse claire pour mon TIPE (dans lequel j'utilise celui avec n-1).
J'ai cru comprendre qu'on utilise celui avec n quand on connaît la moyenne réelle et celui avec n-1 quand on ne la connaît pas?
Oui c'est bien ça : si tu connais la moyenne réelle de la population, alors tu peux calculer la variance d'échantillon comme la moyenne des carrés des écarts à cette moyenne, qui est connue : l'estimateur ne sera pas biaisé.
En revanche, si la moyenne de la population n'est pas connue, l'estimateur de la variance de l'échantillon adopte la moyenne de l'échantillon comme valeur supposée de la moyenne de la population... Ce qui introduit un biais.
Intuitivement : en prenant la moyenne d'échantillon comme estimateur de la moyenne de l'ensemble de la population, tu "consommes" un degré de liberté. ou si tu préfères : tu fais tes calculs d'écarts par rapport à un poteau qui en réalité n'est pas fixe, puisque tu ne le connais que par son estimateur.
Pour corriger ce biais on calcule donc l'estimateur dit "non biaisé", qui "rajoute" juste la quantité n"cessaire pour équilibrer ce que tu as sous estimé à tort en prenant l'etimateur de la moyenne à la place de la vraie moyenne (qui est inconnue).
D'accord, merci! Normalement dans la formule de l'écart-type c'est la moyenne réelle qui doit être utilisée, donc si on utilise la moyenne expérimentale il faut compenser cela en divisant par n-1 et non par n? (mais du point de vue quantitatif je ne comprends pas trop en quoi remplacer le n du dénominateur par n-1 compense cela, pourquoi pas n-2 ou racine de n? sans doute y a-t-il des calculs derrière, ce qui m'importe peu).
Par ailleurs, est-ce cette compensation qui justifie le fait de remplacer l'écart-type réel par celui expérimental dans la formule de l'intervalle de confiance (que j'utilise également, dans le cadre de la loi de Student):
Ic = [m-ts/n , m+ts/n]
où t: quantile d'ordre 1
s: écart-type
salut
l'écart type donc la variance d'un échantillon est une variable aléatoire
on note V la variance et m la moyenne (qui est aussi une variable aléatoire)
pour un échantillon de taille n l'espérance de la variance des échantillon est
E(V) = E[(1/n)xi2 - m2 ] = (1/n)E(xi2) - E(m2) = (1/n)n(V + m2) - (V + m2) = [(n - 1)/n] V
c'est la formule de Koenig :: V + m2 = (1/n)xi2 ...
Désolé je viens seulement de voir le message précédent.
Dans ton intervalle m est la moyenne de l'échantillon. Pour s 2 cas se présentent:
1/ si l'écart-type de la population est connu (rare) on remplace s par cette valeur connue.
2/ sinon (cas le plus courant) s est remplacé par l'écart-type estimé et l'intervalle est alors (mu moyenne de l'échantillon):
ou bien:
Merci, si je comprends bien c'est pour justifier le n-1?
S'il y a une justification formelle derrière, je l'admet, mais le problème c'est que je ne connais vraiment rien d'autre que les bases du lycée en statistiques (pas de stat en MP) et je ne pourrais donc pas comprendre la démonstration, mais merci quand même!
Sinon, concernant ce que j'ai écrit sur l'intervalle de confiance, est-ce juste?
soit on prend l'écart type s de l'échantillon soit on prend l'écart type corrigé S = [ (n - 1)/n ] s
....
Je ne suis pas persuadé qu'on se comprenne:
si sigma est l'écart-type de l'échantillon alors dans l'intervalle on utilise qui est égal à
Dans mon message précédent, je répondais à carpediem, d'où sans doute la confusion, et je n'avais pas vu ton message alb12.
En fait je ne sais pas ce qu'est " avec un chapeau au-dessus".
Mais c'est ce que je voulais savoir: on doit également compenser le fait qu'on utilise un écart-type expérimental au lieu du réel dans la formule de l'intervalle de confiance en "remplaçant" le n par (n-1), c'est ça?
Finalement, la formule à utiliser pour l'intervalle de confiance quand on ne connaît pas la moyenne réelle et donc l'écart-type réel est:
et pas:
???
Oui. Pour un grand échantillon ce n'est pas important mais dans ton cas la précision est indispensable. Attention à utiliser une variable de Student à n-1 degrés de libertés. Autre erreur: cela n'a rien à voir avec le fait qu'on connaisse ou pas la moyenne de la population. Si tu connais la moyenne de la population, la question d'un intervalle de confiance ne se pose pas. Je vais donc me répeter:
1/ si on connait l'écart-type de la population (ce n'est pas ton cas mais en contrôle qualité c'est possible) on prend cet écart-type/sqrt(n)
2/ sinon (c'est ton cas) on prend l'écart-type estimé/sqrt(n)
Or ecarttypeestimé/sqrt(n)==ecarttype/sqrt(n-1) (tu trouveras cette formule partout)
C'est pourquoi mes deux intervalles sont identiques.
Pour ton TIPE tu dois maîtriser la notion d'écart-type estimé (sigma chapeau)
... quant à la question pourquoi diviser par racine de (n-1) plutôt que par racine de n, ça fait l'objet d'une démonstration (vue en école d'ingénieur, et non en prépa de mon temps...).
Ca n'est pas un résultat "immédiat", si c'est ça ta question.
Si je comprends bien, l'écart-type "estimé" (ou chapeau) correspond à ce que j'appelle l'écart-type expérimental (obtenue avec des mesures expérimentales). En fait, ce qui m'importe, c'est la formule pour calculer l'intervalle de confiance qui est donc bien en exp/n et pas exp/(n-1).
De ce fait, savoir que exp/n = réel/(n-1) (bien qu'intéressant) m'importe peu, puisque je ne connais pas réel.
Est-ce (enfin) exact?
Merci bien en tout cas pour toutes ces précisions
C'est difficile de se comprendre ce soir !
Moi j'utilise l'alphabet grec pour les échantillons et l'alphabet français pour la population. Donc je résume:
m et s ne sont pas connus
mu et sigma sont connus puisque ce sont les valeurs de l'échantillon.
sigma chapeau est connu puisque on a la relation simple suivante:
L'explication du choix de l'écart-type estimé, comme l'a signalé carpediem, vient du fait que la moyenne de la variance est égale à tandis que la moyenne de la variance estimée est égale à
Moralité: si l'on veut une estimation ponctuelle de l'écart-type de la population, on prend l'écart-type estimé de l'échantillon
D'accord, je n'avais pas compris les notations. Mais je ne comprends pas la différence entre sigma et sigma estimé (ou chapeau). Parce qu'au final, il y a 3 sortes d'écart-type: m ("le vrai", inconnu), sigma (?) et sigma chapeau (?).
Mais lequel des 2 derniers est celui que j'ai calculé expérimentalement avec la formule :
((fk-f)²/(n-1))
avec: fk la fréquence pour la kème série (de 10 lancers)
et f la fréquence moyenne (totale, pour 50 lancers) ???
m ???
si tu divises la somme des carrés des écarts par n c'est l'écart-type (en prenant la racine carrée)
si tu divises la somme des carrés des écarts par n-1 c'est l'écart-type estimé
D'où la formule simple reliant les deux.
Ta formule donne bien l'écart-type estimé.
Au temps pour moi, je voulais dire s.
Quelle est donc la différence entre ces 3 écart-types? Je pensais qu'il n'y en avait que 2, le vrai (s) et l'estimé (sigma chapeau).
Sinon c'est bon, comme j'ai calculer l'estimé, je dois bien utiliser dans la formule de l'IC: chapeau/n
pour toute série statistique on peut calculer une moyenne et 2 écart-types.
Ensuite si l'on parle population et échantillons il faudra faire intervenir éventuellement leur moyenne et leurs écart-types. Par exemple lors d'un test d'égalité de deux moyennes on a:
pour la population 1: et et
pour l'échantillon 1 issu de cette population 1: et et
Idem avec la population 2 et l'échantillon 2
D'accord, je comprends mieux (je crois)!
Si je résume, moi je connais sigma et sigma chapeau grâce à des mesures expérimentales sur un échantillon. Mais comme je ne connais pas l'écart-type de la population s, il faut que j'utilise sigma chapeau pour être plus précis.
Ensuite, pour l'intervalle de confiance, comme j'utilise un écart-type estimé, je dois utiliser la formule:
c'est ça?
En tout cas, merci à tous pour votre disponibilité et votre patience!
En tout cas c'est comme cela que je l'enseigne en bts.
Mais avec les stat les avis divergent assez vite.
A toutes fins utiles voici un programme qui retourne l'intervalle de confiance.
Il est écrit en langage Xcas (proche Maple, C++) et en français. Tous les cas sont envisagés.
// mu:moyenne échantillon;sigma:écart-type échantillon ou population s'il est connu
//n:taille échantillon;alpha:risque;sconnu=1 si écart-type population connu, 0 sinon (cas général)
//retourne l'intervalle de confiance et affiche l'interprétation graphique de t
IntervalleConfianceMoyenne(mu,sigma,n,alpha,sconnu):={
local E,t,g,d,x;purge(x);ClrGraph;
si sconnu==1 alors
E:=sigma
sinon
E:=sigma*sqrt(n/(n-1))
fsi;
si n>30 ou (n<30 et sconnu==1) alors
t:=normal_icdf(1-alpha/2);
titre="Densité de la loi normale centrée réduite",
tracer_aire(normald(x),x=-5..-t,affichage=nom_cache+44),
tracer_aire(normald(x),x=t..5,affichage=nom_cache+44),
graphe(normald(x),affichage=epaisseur_ligne_3),
legende(point(-t,0),-t,quadrant3),legende(point(t,0),t,quadrant4)
sinon
t:=student_icdf(n-1,1-alpha/2);
titre="Densité de la loi de Student à "+(n-1)+" degrés de libertés",
tracer_aire(student(n-1,x),x=-10..-t,affichage=nom_cache+44),
tracer_aire(student(n-1,x),x=t..10,affichage=nom_cache+44),
graphe(student(n-1,x),affichage=epaisseur_ligne_3),
legende(point(-t,0),-t,quadrant3),legende(point(t,0),t,quadrant4)
fsi
g:=evalf(mu-t*E/sqrt(n),3);
d:=evalf(mu+t*E/sqrt(n),3);
afficher("t="+evalf(t,3));
legende(point(-t,-0.1,affichage=point_invisible),"la surface totale grisée est égale au risque soit "+alpha)
//retourne [g,d] //liste des bornes
retourne g..d //intervalle en syntaxe xcas
}
Merci bien!
Sinon dernières petites questions pour que je ne dise pas de bêtise:
* toute cette étude se place a priori dans le cadre d'une loi normale, mais comment le justifie-t-on: lancers indépendants les uns des autres? d'après le théorème limite central?
* on utilise également la loi de Student, justification: faible nombre de lancers?
* mais quel est le lien entre loi de Student et loi normale? une loi de Student est une loi normale adaptée à une situation où n est petit?
Cette page que j'ai survolée me semble intéressante. Il y en a sûrement beaucoup d'autres.
Sinon pour résumer et au risque d'être contredit:
1/ si n>30 alors N(0;1) même si la distribution de la population est inconnue (TLC )
2/ si n<30 et si la population est normalement distribuée alors 2 cas:
* si l'écart-type de la population est connu alors N(0;1)
* sinon student à n-1 ddl
Sauf erreur dans le 1/ il s'agit d'une approximation et dans le 2/ il s'agit de lois exactes.
Pour moi n=50.
Mais ma formule de l'intervalle de confiance ne sous-entend elle pas l'utilisation de la loi de Student, avec l'utilisation des quantiles de Student t (que j'ai trouvé dans la table des quantiles ici (http://fr.wikipedia.org/wiki/Loi_de_Student) ? Ou est-ce la même formule pour une loi normale ou de Student?
En résumé, ai-je utilisé quelque part dans ma démarche (formules écart-type et intervalle de confiance) la loi de Student?
Le réel t vérifie P(|U|>t)=alpha (alpha le risque)
ex1: si U:N(0;1) et alpha=0.05 on résout P(|U|>t)=0.05 ie P(U<t)=0.975 on obtient t=1.96
ex2: si U variable de Student à 10 ddl et alpha =0.01 on résout P(|T10|>t)=0.01 ie P(T10<t)=0.995 on obtient t=3.169
Dans ton cas n>30 donc un intervalle de confiance de la moyenne de la population au risque 0.05 est
Je pense que rien n'interdit de prendre une variable de student dans le cas d'un grand échantillon, essayons:
P(|T49|>t)=0.05 donne t=2.010 donc un intervalle de confiance de la moyenne de la population au risque 0.05 est
D'accord, je conserverai donc mes résultats avec Student (j'ai pris un risque de 0.01 et t=2.4).
Merci beaucoup pour votre patience alb12! Les statistiques sont maintenant plus claires pour moi^^
Es-tu sûr du 2.4 ? il faut prendre 0.5% à gauche et à droite.
P(|T49|>t)=0.01 équivaut à P(T49<t)=0.995 je trouve t=2.68
Si on prend la loi normale centrée réduite on trouve t=2.58.
oui exact! j'ai regardé dans la colonne "unilatéral", dans "bilatéral" on a bien t=2.68 pour 99%
merci
la loi normale ainsi que l'intervalle de confiance d'une proportion sont dans le nouveau programme de terminale S. Les calculatrices basiques intègrent les fonctions de répartition et leurs inverses. Et pour avoir le temps de développer ces notions disparaissent l'intégration par parties, les barycentres par exemple. Un tournant dans l'enseignement au lycée jusqu'au prochain virage ! Mais je suis hors sujet !
Bonne chance pour la suite !
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :