Confiance sur un test entre deux possibilités, exercice de statistiques

 Niveau Licence Maths 1e annPartager :
			        
Confiance sur un test entre deux possibilités
Posté par 
am7521  25-11-14 à 16:21
Bonjour à tous,

Je dois coder un programme qui me permet de savoir quelle est le meilleur logo pour un projet. 

L'idée est de que je vais proposer à un échantillon de population de voter pour leur logo préféré (il y aura deux choix avec obligation d'en faire un) et j'ai besoin de savoir quelle doit être la taille de cet échantillon pour être sûr à x% que la population totale (de n personnes) sera majoritairement d'accord avec ce choix.

J'ai exploré la possibilité d'utiliser une marge d'erreur et un niveau de confiance mais je ne sais pas si c'est le plus pertinent pour ce projet (car ce qui m'intéresse n'est pas de savoir si les pourcentages seront les mêmes dans la population totale et dans l'échantillon mais simplement de savoir si le logo A sera majoritairement préféré au logo B ou pas). 

J'aimerais connaître la relation entre la taille de mon échantillon et la probabilité que la préférence entre A et B soit la même pour la population totale et l'échantillon. On doit sans doute prendre en compte la représentativité de l'échantillon dans la formule...

J'espère que c'est clair ! 

Si vous avez la moindre piste pour m'aider à avancer ce serait top...

Merci beaucoup !

Adrien
 Posté par 
flightre : Confiance sur un test entre deux possibilités  25-11-14 à 16:44
salut

une theorie : si ta population est distribuée selon une loi normale de parametre N(µ,²)

alors quelque soit la taille de l'echantillon prelevé , la proportion du caractère etudié suit aussi une loi normale de parametre F--> N(p,(p(1-p)/n))  si des fois cela peut te servir 
 Posté par 
LeDinore : Confiance sur un test entre deux possibilités  25-11-14 à 20:08
Citation :
... j'ai besoin de savoir quelle doit être la taille de cet échantillon pour être sûr à x% que la population totale (de n personnes) sera majoritairement d'accord avec ce choix.

Demande mal spécifiée...
Tu vois bien que pour une fréquence observée f=1/2 il sera toujours impossible de discerner une préférence p différente de 1/2 dans la population.

Et pour un f tout proche de 1/2 il faudra un n très grand...

... tandis que pour f proche de 0 ou de 1, un n assez faible suffira pour conclure avec le niveau de confiance x% souhaité.

Le niveau de confiance dépend de n et de f observé.

Il faudrait donc que tu fixes un "seuil critique" au différentiel d = abs(f-1/2) et un seuil de confiance x% et alors dans ce cas il est possible de dire quel n donnera une décision à x% si le différentiel dépasse ce seuil critique.

La relation générale pour un seuil de confiance à x% :        avec q = q.norm(x)  :: quantile x de la loi normale standard

Par exemple, pour x=95% :   
Cela implique que pour discerner une préférence sur un vote 51/49, le différentiel est de 1% et qu'il faut 10,000 votes !

Pour un vote 53/47, il faut 1000 votes, raison pour laquelle c'est la taille "standard" pour un échantillon permettant un sondage d'opinion à 3 points d'erreur près.

Explication sur la formule :
Si p est la proportion de préférence de A sur B dans la population globale, et que l'échantillon de votants est aléatoire dans cette population, alors le nombre de votants pour A suivra une loi binomiale B(n,p), assimilable (pour n grand et p pas trop "décentré") à une loi normale N(m=np,sigma²=n.p(1-p))

Dans ce cas, la fréquence d'échantillon f suit aussi une normale.

Et donc l'IDC (intervalle de confiance) de |f-p| est connu.

On veut pouvoir dire si p est significativement différent de 1/2.

On bâtit donc un test d'hypothèse en mesurant si l'écart  d = |f-1/2|  est plausible ou non.

En étudiant la relation entre x, d, n et p, on voit que la pire valeur pour p correspond à p=1/2.

D'où la formule plus haut...

NB : si p est supposé significativement plus faible (ou plus fort) que 1/2, alors n pourra être réduit.

Formule tenant compte de p supposé :        avec q = q.norm(x)  :: quantile x de la loi normale standard
 Posté par 
am7521re : Confiance sur un test entre deux possibilités  26-11-14 à 10:50
Merci pour cette super réponse @LeDino.

Cependant, j'ai du mal à comprendre comment tu calcules q avec q.norm(x)  :: quantile x de la loi normale standard.

En effet, si par loi normale standard tu entends N(0,1), on a q ~ 1,64 pour x = 95% il me semble (d'après la table ici : http://bit.ly/1yW2E9W), or q^2 = 4 d'après ton calcul lorsque tu me dis que n > 1/(d^2). 

Merci de ton aide 
 Posté par 
LeDinore : Confiance sur un test entre deux possibilités  26-11-14 à 13:30
Tu as parfaitement raison ... je suis allé un peu vite dans l'écriture.

Le test est BILATERAL puisque si A l'emporte sur B ou l'inverse tu concluras dans chaque cas à l'inégalité et donc à la domination de l'un ou de l'autre. Si la confiance est de , alors le risque de rejet à tort sera    et la probabilité à considérer pour chaque zone  symétrique  de rejet sera la moitié de , donc  . 

Donc dans les formules que j'ai données (qui sont justes), il faut adopter :   

C'est d'ailleurs ce que j'ai fait puisque j'ai adopté la valeur    arrondie à , qui correspond bien à    pour une confiance    et donc un risque  .
 Posté par 
LeDinore : Confiance sur un test entre deux possibilités  26-11-14 à 13:45
Autre remarque : 

Faire une approximation par la loi normale n'est pas impératif.

La relation que j'ai donnée découle de la valeur de la moyenne et de l'écart-type de la binomiale suivie par la fréquence    d'apparition de A... Elle fait intervenir le quantile    de distribution de  ,  qui en toute rigueur est une distribution binomiale et n'est qu'approchée par une normale.

En d'autres termes, si tu disposes d'une fonction qui calcule la distribution inverse de la loi binomiale  (qbinom),  tu n'es pas obligé de passer par une loi normale.

Dans le cas où tu devrais programmer par toi même la fonction de quantile  ,  il est peut-être plus simple en définitive de programmer une binomiale. Le programme est simple et la complexité de l'algorithme (bien écrit) est linéaire en  . Pour cela :  partir de  ,  puis écrire    à partir de    par récurrence : la relation est toute simple. Faire une boucle sur    et s'arrêter à la valeur de probabilité cumulée qui dépasse le seuil fixé (  étant le nombre de votes pour A dans l'échantillon). 
 Posté par 
LeDinore : Confiance sur un test entre deux possibilités  26-11-14 à 13:48
Correctif :  c'est    qui suit une binomiale.

Ce qui ne change rien à ce qui précède, mais implique juste d'en tenir compte dans le programme...
 Posté par 
am7521re : Confiance sur un test entre deux possibilités  26-11-14 à 20:06
Merci beaucoup LeDino 

Toute dernière question : ceci ne fonctionne qu'avec "n suffisamment grand" n'est-ce pas ?

Car, par exemple, j'obtiens que si pour un échantillon de 3 personnes ils choisissent tous le logo A par rapport au logo B (100% de l'échantillon) alors cela signifierait qu'il y a plus de 80% de chances que la population totale (dont la taille reste indéfinie dans ces calculs) soit majoritairement d'accord avec ce choix. Ce qui me semble beaucoup. Si c'est lié à une erreur, d'où viendrait-elle ? Sinon, que peut-on considérer comme "suffisamment grand" ?

Merci mille fois 
 Posté par 
LeDinore : Confiance sur un test entre deux possibilités  26-11-14 à 20:39
Citation :
Toute dernière question : ceci ne fonctionne qu'avec "n suffisamment grand" n'est-ce pas ? 

Car, par exemple, j'obtiens que si pour un échantillon de 3 personnes ils choisissent tous le logo A par rapport au logo B (100% de l'échantillon) alors cela signifierait qu'il y a plus de 80% de chances que la population totale (dont la taille reste indéfinie dans ces calculs) soit majoritairement d'accord avec ce choix. Ce qui me semble beaucoup. Si c'est lié à une erreur, d'où viendrait-elle ? Sinon, que peut-on considérer comme "suffisamment grand" ? 

Pour tout statisticien qui se respecte,  n  n'est jamais trop grand  !

Ta question est très bonne et son illustration très intéressante.

En gros tu demandes à partir de quel valeur de n on peut commencer à considérer que la formule est applicable. Si tu adoptes la loi normale comme approximation de la loi binomiale il faudrait un n assez grand, du type n>30.

Mais si tu appliques le quantile adapté à la vraie distribution de a (le nombre de votes pour A) qui est une loi binomiale, alors rien ne t'interdit de tenir un raisonnement probabiliste parfaitement valable. Evidemment, a=n=3 ça fait vraiment maigrichon. Mais si tu avais par exemple a=n=10, tu vois bien quand même intuitivement que les chances pour que A soit bien dominant sont très élevées.

En pratique, à partir de n=8 tu auras seulement une chance sur 2 puissance 8 = 256 d'obtenir a=n du seul fait du hasard.

Comme il faut prendre en compte le cas symétrique (obtenir a=0 ==> b=n), cela fait une chance sur 128. Donc un peu moins de 1%. A ce compte là, un vote unanime de 5 personnes apporte un niveau de confiance satisfaisant.

Pour a=n=3, c'est vraiment un peu juste pour décider.

Le seuil de confiance ici serait moins bon que 75%.

En effet la probabilité d'unanimité sur 3 votes, obtenue par hasard pour p=1/2 serait de 2*1/8 = 1/4 = 25%.

Au final tout dépend des enjeux, du niveau de confiance requis, et de la précision dont tu as besoin sur ce niveau de confiance. Moi j'appliquerais la formule à partir de n=5 minimum.

Et après je trancherais le vote en fonction du score obtenu (positionnement de d=|f-1/2| par rapport au score q/2racine(n)).
  Posté par 
LeDinore : Confiance sur un test entre deux possibilités  26-11-14 à 20:42
Plus exactement : le score c'est d, et le seuil critique de décision pour une confiance de x%, c'est q/2racine(n)