Echantillon

 Niveau IUT/DUTPartager :
			        
Echantillon 
Posté par 
Mac_Leod  25-06-15 à 14:12
Bonjour à tous,

Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données. 

Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes. 

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...
 Posté par 
Mac_Leodre : Echantillon   25-06-15 à 16:09
Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".

> http://lara.inist.fr/bitstream/handle/2332/1075/ntstat.pdf;jsessionid=48B065A869D1B7F89CFD1D15E8BADB7C?sequence=2

Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

(désolé pour ce second post)
 Posté par 
carpediemre : Echantillon   25-06-15 à 16:35
salut

trop vague ...

un échantillon de quoi ?
 Posté par 
Mac_Leodre : Echantillon   25-06-15 à 16:43
C'est écrit : "un échantillon aléatoire représentatif de mes données."

J'ai une base de données et j'aimerais réaliser des tests dessus et déterminer à partir de quelle taille d'échantillon, celui - ci est suffisamment représentatif. 

Ce, concrètement, pour la mise en oeuvre d'une future méthode de recueil de données.
 Posté par 
carpediemre : Echantillon   25-06-15 à 17:42
ben si tes données sont rangées dans une liste il est aisé de simuler un tirage avec remise de taille n ...
 Posté par 
carpediemre : Echantillon   25-06-15 à 17:43
sur tableur avec la fonction "aleaentrebornes" ...
 Posté par 
Mac_Leodre : Echantillon   26-06-15 à 02:14
Relis l'énoncé de mon message ^^

Je ne recherche pas comment tirer au sort un échantillon, mais un moyen de tirer aléatoirement un échantillon suffisamment représentatif de mes données.

Ce, en vérifiant donc à l'aide d'indicateurs statistiques. J'ai ainsi besoin de savoir pour quelle valeurs, mon échantillon aura une représentativité dont la marge d'erreur est de moins de 5%.
 Posté par 
Mac_Leodre : Echantillon   02-07-15 à 12:13
Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.

A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante : 

n = IC² * SD*(1-SD) / e²              # taille minimale d'un échantillon représentatif          
nadj = n / (1+((n-1)/npop))           # n ajusté en fonction de la taille de la ville

# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations 

Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :

n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs)              #df$n_obs, étant le nombre d'observation correspondant.

Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.

Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).

J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage. 

J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.

Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ... 

Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?

Merci en tout cas à la personne qui prendra le temps pour moi ! 
 Posté par 
sefedineEchantillon  12-07-15 à 01:11
Salut, tu as commencé par la construction de strates.

Dans ce cas précis, tu dois procéder à un tirage aléatoire proportionnelle à la taille de chaque strate de la population.  La seul problème qui se pose, est combien d'individus veux-tu tirer dans la population au total?
 Posté par 
LeDinore : Echantillon   12-07-15 à 21:50
Il y a fondamentalement quelque chose que je ne saisis pas dans ta démarche globale.

Tu dis clairement que tu n'es pas statisticien. Soit.

Alors pourquoi rechercher à tout prix une approche statistique que tu ne pourras pas maîtriser par toi même, n'ayant pas les compétences ?

Alors même qu'il y a une méthode extrêmement simple pour quelqu'un qui a des compétences informatiques (ce qui semble être ton cas), qui consiste à comparer des mesures sur échantillons avec les mesures équivalentes sur la population globale...

Qu'est-ce qui t'empêche de faire simplement ça ?
 Posté par 
LeDinore : Echantillon   13-07-15 à 00:55
Citation :
J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
Franchement ça fait peur de lire ça.

Tu comptes sur des étrangers, qui ne connaissent RIEN à tes données, pour te conseiller sur la conception d'une base échantillon.

Tes données peuvent contenir des grandeurs qualitatives, ordinales, quantitatives, discrètes, continues... Les taux de valeurs manquantes nous sont inconnus. La qualité de tes données (en particulier la fiabilité de leur recueil) est également inconnue. On ne sait pas si ces données sont exhaustives ou si elles constituent elles même un échantillon. On ne sait rien de la distribution de tes variables. On n'a pas la moindre idée de l'utilisation que tu veux en faire : calcul d'effectifs, de fréquences, de moyennes, de cumuls... S'il faudra redresser les données.

Tu as calculé tes tailles d'échantillons à partir de formules qui reposent sur des HYPOTHESES.

Tu pourrais par exemple vérifier si ces hypothèses sont réalisées...

Si elles le sont, alors tu sais à quoi t'en tenir...

A défaut, tu fais la vérification empirique que je t'ai indiquée précédemment :
Tu réalises le ou les calculs cibles sur la base complète et sur tes échantillons. Et tu compares.

Tu peux échantillonner plusieurs fois et observer comment les fluctuations d'échantillonnage se répartissent autour des valeurs calculées sur l'intégralité des données. Tu auras ainsi une idée de l'erreur commise.

Tu verras au passage que selon la nature des données et l'usage que tu comptes en faire... l'échantillonnage peut s'avérer suffisant ou pas, pour la précision et le seuil de confiance ciblés.
 Posté par 
Mac_LeodComparaison moyennes  16-07-15 à 16:20
Bonjour,

Je dispose de deux bases de données. L'une étant un échantillon de l'autre.

J'aurais simplement besoin de démontrer ou non que mon échantillon est représentatif de ma base de donnée, ce en faisant le test pour chacune de mes variables.

Comment m'y prendre, quelle méthode utiliser ? Un test de student ?

Egalement, comment obtenir ces résultats sous excel et de quelle façon les interpréter ?

Cordialement, 

Mac_Leod.

*** message déplacé ***
  Posté par 
LeDinore : Comparaison moyennes  16-07-15 à 17:56
Multipost :  Echantillon 

Interdit par les règles du forum.

Dispersif, inefficace...

... et peu respectueux de ceux qui t'apportent de l'aide...

J'ai d'ailleurs déjà en grande partie répondu dans le topic d'origine.

Il suffit d'exécuter tes requêtes sur la base complète et sur l'échantillon (ou plusieurs, c'est encore mieux) et de comparer.

Pas besoin de "test statistique d'hypothèse"...

Puisque la population mère est là qui te tend les bras.

*** message déplacé ***