Statistiques (distribution normale et rejet de points)

 Niveau école ingénieurPartager :
			        
Statistiques (distribution normale et rejet de points)
Posté par 
blu3sky  12-10-14 à 23:42
Bonjour,

Voici le problème :

J'ai une liste de coordonnées x et y qui ont été mesuré par un instrument 500 fois.

On me demande de trouver la moyenne, et l'erreur-type de x et de y (facile)

On me demande ensuite de trouver le Z-score (coordonée - moyenne / erreur-type) pour chaque coordonées en considérant x et y indépendant l'un de l'autre, et de rejeter les coordonées qui tombent en dehors de 99% de la distribution. Il est précisé de faire attention car en rejetant les coordonées, la moyenne et l'erreur-type changent.

J'ai fait tout cela, mais mon problème est le suivant : Effectivement la moyenne et l'erreur-type changent quand je supprime des coordonées, c'est bien normal, et je ne sais pas si je dois rejeter toutes les coordonées qui tombent en dehors des 99% d'un coup, puis refaire cela avec les nouvelles coordonées qui ne tombaient pas avant dans les 99% mais qui maintenant le sont, du au changement de la moyenne et de l'erreur type, et faire cela jusqu'a ce que plus aucune valeur ne soit dans la zone des 1% a rejeter ? Ou si je devrais rejeter les coordonées une à une, et du coup certaines que j'aurais du rejeter en premier lieu, je ne les rejete plus car la moyenne et l'erreur type ont changé ?

Je peux fournir un doc excel de ce que j'ai fait jusqu'a maintenant et l'énoncé de l'exercice (en anglais) si ce n'est pas clair.

Merci !
 Posté par 
LeDinore : Statistiques (distribution normale et rejet de points)  13-10-14 à 03:30
Si tu es puriste et que tu as un outil pour faire la calcul automatiquement, il semblerait logique de trier les points selon le Z-score et de commencer par éliminer le point ayant le pire score.

Et tu recommences (y compris recalcul du Z-score), jusqu'à ce que tu aies éliminé 5 points, c'est à dire 1% des 500 points de départ.
 Posté par 
Dlzlogicre : Statistiques (distribution normale et rejet de points)  13-10-14 à 13:40
Bonjour,
L'énoncé précise bien que il faut rejeter les coordonnées qui tombent en dehors de 99% de la distribution. 
Cette marge correspond à une recherche de valeurs fausses, type erreur de recopie. 
Mais il est vrai qu'il y a à peu près 4 valeurs pour 1000 qui s'éloignent de cette distribution.

L'énoncé ne dit pas qu'il faut éliminer 1% des valeurs, mais qu'il faut éliminer les points dont une des coordonnées dépasse 99% de la distribution.
Ca m'intéresserait d'avoir le document Excel.    
 Posté par 
blu3skyre : Statistiques (distribution normale et rejet de points)  13-10-14 à 19:57
Voici un lien vers mon fichier excel : http://xls.lu/8KPT

et l'énoncé du problème (en anglais) : http://pdf.lu/2ofo

Il était fourni avec l'énoncé les 3 premières colonnes du fichier excel (time, E, N), c'est moi qui ai fait le reste

Merci beaucoup !
 Posté par 
LeDinore : Statistiques (distribution normale et rejet de points)  14-10-14 à 01:45
J'ai regardé l'énoncé.

Il est bidon.

Je ne te conseille pas de perdre trop de temps la dessus.

Si je dis qu'il est bidon c'est parce qu'il n'est ni scolaire, ni réel.

Dans un exercice "scolaire" bien fait, il n'y aurait pas d'ambiguïté sur ce qu'on attend de toi.

Or  tu as judicieusement repéré qu'il y avait une ambiguïté que tu as parfaitement décrite.

Dans un travail réel on ne ferait pas des hypothèses aussi débiles que celles qui sont faites.

On ne peut en même temps prétendre faire un contrôle réel sur des données réelles... et faire des hypothèses a priori sur la distribution. 

Sur un cas réel : tu commences par faire un histogramme et tu observes la distribution par toi même.

Donc en résumé, c'est un exercice pour que tu t'entraînes à manipuler des données sous EXCEL et le but est surtout d'apprendre à maîtriser ce que TOI tu estimes juste de faire. Alors fais donc ça : un contrôle qui te semble intelligent.

 Posté par 
Dlzlogicre : Statistiques (distribution normale et rejet de points)  14-10-14 à 12:27
Bonjour LeDino,

*** censuré : polémique inutile et sans grand rapport avec la question posée.***
 Posté par 
Dlzlogicre : Statistiques (distribution normale et rejet de points)  14-10-14 à 12:30
Bonjour Blu3Sky,

Tant que j'y suis un autre pari : votre école s'appelle ESGT ?
 Posté par 
blu3skyre : Statistiques (distribution normale et rejet de points)  14-10-14 à 12:37
Raté l'école est en fait une université anglaise 

En fait j'ai juste un doute :

J'exclue 8 points après les avoir détécté comme "gross errors". Parfait, je les supprime de ma table excel, mais le problème c'est que la moyenne et la std error changent, et de nouveaux points apparaissent à exclure, alors qu'ils apparaissaient ok avant.

Ma question est donc la suivante : dois-je continuer à exclure aussi les novueaux points qui apparaissent en "gross error" jusqu'a qu'ils soient tous ok ? Ou la réponse au problème est elle seulement de fournir les 8 premiers points à exclure, et s'arréter la ?
 Posté par 
Dlzlogicre : Statistiques (distribution normale et rejet de points)  14-10-14 à 14:24
Selon toute vraisemblance, les valeurs données dans l'exercice résultent de mesures réelles, et indépendamment de la question posée, c'est une excellente illustration de la théorie des erreurs.
 Posté par 
LeDinore : Statistiques (distribution normale et rejet de points)  15-10-14 à 00:18
Citation :
J'exclue 8 points après les avoir détécté comme "gross errors". Parfait, je les supprime de ma table excel, mais le problème c'est que la moyenne et la std error changent, et de nouveaux points apparaissent à exclure, alors qu'ils apparaissaient ok avant. 

Ma question est donc la suivante : dois-je continuer à exclure aussi les nouveaux points qui apparaissent en "gross error" jusqu'a qu'ils soient tous ok ? Ou la réponse au problème est elle seulement de fournir les 8 premiers points à exclure, et s'arréter la ?

La question que tu poses n'est pas mathématique.

Elle ne se réfère qu'à une et une seule chose, qui est ton énoncé.

Donc ça soulève la question de l'intérêt de cet énoncé...

Qu'est-ce qu'il est supposé t'enseigner ?

S'il s'agit de savoir comment repérer des points extrêmes dans une distribution supposée suivre une loi normale, tu as manifestement compris comment faire.

Qu'y a-t-il d'autre à comprendre en dehors de ça ?

Qu'en écartant des points extrêmes tu modifies la moyenne et l'écart-type de l'échantillon nettoyé ?

Bien, tu l'as compris, aussi donc tout va bien.

Alors quoi d'autre ?

Tu veux savoir s'il faut continuer et itérer le processus d'élimination de valeurs extrêmes ?

Qu'est-ce qui t'empêche de poursuivre le processus... au moins pour voir ce que tu obtiens ?

Est-ce que ça te conduit à éliminer  tous les points ?

Ou bien est ce que ça s'arrête à un moment donné ?

Et dans ce cas quelle proportion de points se trouve éliminée...

Faire ce travail t'entraînera à utiliser EXCEL pour ce genre d'opération, ce qui semble être l'objectif principal de l'exercice...

Quant à ta question sur ce qu'il "FAUT" faire, la réponse réside uniquement dans le but cherché.

Ici il n'y a pas de but clairement explicité.

Donc à mon avis tu es libre de faire ce que tu veux, du moment que ça a du sens pour toi .
 Posté par 
LeDinore : Statistiques (distribution normale et rejet de points)  15-10-14 à 00:22
Citation :
polémique inutile et sans grand rapport avec la question posée.

Ce n'est pas une polémique mais un conseil précieux pour blu3sky.
Un énoncé n'est pas un livre sacré, et blu3sky doit apprendre à s'en affranchir... et à garder son sens critique.
Ou alors il est condamné à s'interroger ad vitam sur le but non explicite d'un exercice simplement mal formulé.
 *** la polémique inutile était dans ce qui a été censuré ***
  Posté par 
LeDinore : Statistiques (distribution normale et rejet de points)  15-10-14 à 00:26
Citation :
Selon toute vraisemblance, les valeurs données dans l'exercice résultent de mesures réelles, et indépendamment de la question posée, c'est une excellente illustration de la théorie des erreurs.

Oui en effet si tu entends par là la théorie des erreurs d'énoncé ...