Bonjour à tous,
Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.
Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.
Mais je ne sais pas comment m'y prendre sur cette partie statistique ...
Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".
> http://lara.inist.fr/bitstream/handle/2332/1075/ntstat.pdf;jsessionid=48B065A869D1B7F89CFD1D15E8BADB7C?sequence=2
Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?
(désolé pour ce second post)
C'est écrit : "un échantillon aléatoire représentatif de mes données."
J'ai une base de données et j'aimerais réaliser des tests dessus et déterminer à partir de quelle taille d'échantillon, celui - ci est suffisamment représentatif.
Ce, concrètement, pour la mise en oeuvre d'une future méthode de recueil de données.
ben si tes données sont rangées dans une liste il est aisé de simuler un tirage avec remise de taille n ...
Relis l'énoncé de mon message ^^
Je ne recherche pas comment tirer au sort un échantillon, mais un moyen de tirer aléatoirement un échantillon suffisamment représentatif de mes données.
Ce, en vérifiant donc à l'aide d'indicateurs statistiques. J'ai ainsi besoin de savoir pour quelle valeurs, mon échantillon aura une représentativité dont la marge d'erreur est de moins de 5%.
Bonjour,
Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.
De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :
n = IC² * SD*(1-SD) / e² # taille minimale d'un échantillon représentatif
nadj = n / (1+((n-1)/npop)) # n ajusté en fonction de la taille de la ville
# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations
n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs) #df$n_obs, étant le nombre d'observation correspondant.

Salut, tu as commencé par la construction de strates.
Dans ce cas précis, tu dois procéder à un tirage aléatoire proportionnelle à la taille de chaque strate de la population. La seul problème qui se pose, est combien d'individus veux-tu tirer dans la population au total?
Il y a fondamentalement quelque chose que je ne saisis pas dans ta démarche globale.
Tu dis clairement que tu n'es pas statisticien. Soit.
Alors pourquoi rechercher à tout prix une approche statistique que tu ne pourras pas maîtriser par toi même, n'ayant pas les compétences ?
Alors même qu'il y a une méthode extrêmement simple pour quelqu'un qui a des compétences informatiques (ce qui semble être ton cas), qui consiste à comparer des mesures sur échantillons avec les mesures équivalentes sur la population globale...
Qu'est-ce qui t'empêche de faire simplement ça ?
Bonjour,
Je dispose de deux bases de données. L'une étant un échantillon de l'autre.
J'aurais simplement besoin de démontrer ou non que mon échantillon est représentatif de ma base de donnée, ce en faisant le test pour chacune de mes variables.
Comment m'y prendre, quelle méthode utiliser ? Un test de student ?
Egalement, comment obtenir ces résultats sous excel et de quelle façon les interpréter ?
Cordialement,
Mac_Leod.
*** message déplacé ***
Multipost :
Echantillon
Interdit par les règles du forum.
Dispersif, inefficace...
... et peu respectueux de ceux qui t'apportent de l'aide...
J'ai d'ailleurs déjà en grande partie répondu dans le topic d'origine.
Il suffit d'exécuter tes requêtes sur la base complète et sur l'échantillon (ou plusieurs, c'est encore mieux) et de comparer.
Pas besoin de "test statistique d'hypothèse"...
Puisque la population mère est là qui te tend les bras.
*** message déplacé ***
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :