Inscription / Connexion Nouveau Sujet
Niveau IUT/DUT
Partager :

Echantillon

Posté par
Mac_Leod
25-06-15 à 14:12

Bonjour à tous,


Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R, logiciel dont je maîtrise les bases.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

Posté par
Mac_Leod
re : Echantillon 25-06-15 à 16:09

Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".
> http://lara.inist.fr/bitstream/handle/2332/1075/ntstat.pdf;jsessionid=48B065A869D1B7F89CFD1D15E8BADB7C?sequence=2

Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

(désolé pour ce second post)

Posté par
carpediem
re : Echantillon 25-06-15 à 16:35

salut

trop vague ...

un échantillon de quoi ?

Posté par
Mac_Leod
re : Echantillon 25-06-15 à 16:43

C'est écrit : "un échantillon aléatoire représentatif de mes données."

J'ai une base de données et j'aimerais réaliser des tests dessus et déterminer à partir de quelle taille d'échantillon, celui - ci est suffisamment représentatif.
Ce, concrètement, pour la mise en oeuvre d'une future méthode de recueil de données.

Posté par
carpediem
re : Echantillon 25-06-15 à 17:42

ben si tes données sont rangées dans une liste il est aisé de simuler un tirage avec remise de taille n ...

Posté par
carpediem
re : Echantillon 25-06-15 à 17:43

sur tableur avec la fonction "aleaentrebornes" ...

Posté par
Mac_Leod
re : Echantillon 26-06-15 à 02:14

Relis l'énoncé de mon message ^^

Je ne recherche pas comment tirer au sort un échantillon, mais un moyen de tirer aléatoirement un échantillon suffisamment représentatif de mes données.
Ce, en vérifiant donc à l'aide d'indicateurs statistiques. J'ai ainsi besoin de savoir pour quelle valeurs, mon échantillon aura une représentativité dont la marge d'erreur est de moins de 5%.

Posté par
Mac_Leod
re : Echantillon 02-07-15 à 12:13

Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :

n = IC² * SD*(1-SD) / e²              # taille minimale d'un échantillon représentatif          
nadj = n / (1+((n-1)/npop))           # n ajusté en fonction de la taille de la ville

# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations 


Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :
n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs)              #df$n_obs, étant le nombre d'observation correspondant.


Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).


J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ...
Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?


Merci en tout cas à la personne qui prendra le temps pour moi !

Posté par
sefedine
Echantillon 12-07-15 à 01:11

Salut, tu as commencé par la construction de strates.
Dans ce cas précis, tu dois procéder à un tirage aléatoire proportionnelle à la taille de chaque strate de la population.  La seul problème qui se pose, est combien d'individus veux-tu tirer dans la population au total?

Posté par
LeDino
re : Echantillon 12-07-15 à 21:50

Il y a fondamentalement quelque chose que je ne saisis pas dans ta démarche globale.

Tu dis clairement que tu n'es pas statisticien. Soit.
Alors pourquoi rechercher à tout prix une approche statistique que tu ne pourras pas maîtriser par toi même, n'ayant pas les compétences ?
Alors même qu'il y a une méthode extrêmement simple pour quelqu'un qui a des compétences informatiques (ce qui semble être ton cas), qui consiste à comparer des mesures sur échantillons avec les mesures équivalentes sur la population globale...

Qu'est-ce qui t'empêche de faire simplement ça ?

Posté par
LeDino
re : Echantillon 13-07-15 à 00:55

Citation :
J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
Franchement ça fait peur de lire ça.
Tu comptes sur des étrangers, qui ne connaissent RIEN à tes données, pour te conseiller sur la conception d'une base échantillon.

Tes données peuvent contenir des grandeurs qualitatives, ordinales, quantitatives, discrètes, continues... Les taux de valeurs manquantes nous sont inconnus. La qualité de tes données (en particulier la fiabilité de leur recueil) est également inconnue. On ne sait pas si ces données sont exhaustives ou si elles constituent elles même un échantillon. On ne sait rien de la distribution de tes variables. On n'a pas la moindre idée de l'utilisation que tu veux en faire : calcul d'effectifs, de fréquences, de moyennes, de cumuls... S'il faudra redresser les données.

Tu as calculé tes tailles d'échantillons à partir de formules qui reposent sur des HYPOTHESES.
Tu pourrais par exemple vérifier si ces hypothèses sont réalisées...
Si elles le sont, alors tu sais à quoi t'en tenir...

A défaut, tu fais la vérification empirique que je t'ai indiquée précédemment :
Tu réalises le ou les calculs cibles sur la base complète et sur tes échantillons. Et tu compares.
Tu peux échantillonner plusieurs fois et observer comment les fluctuations d'échantillonnage se répartissent autour des valeurs calculées sur l'intégralité des données. Tu auras ainsi une idée de l'erreur commise.

Tu verras au passage que selon la nature des données et l'usage que tu comptes en faire... l'échantillonnage peut s'avérer suffisant ou pas, pour la précision et le seuil de confiance ciblés.

Posté par
Mac_Leod
Comparaison moyennes 16-07-15 à 16:20

Bonjour,

Je dispose de deux bases de données. L'une étant un échantillon de l'autre.
J'aurais simplement besoin de démontrer ou non que mon échantillon est représentatif de ma base de donnée, ce en faisant le test pour chacune de mes variables.

Comment m'y prendre, quelle méthode utiliser ? Un test de student ?
Egalement, comment obtenir ces résultats sous excel et de quelle façon les interpréter ?


Cordialement,
Mac_Leod.

*** message déplacé ***

Posté par
LeDino
re : Comparaison moyennes 16-07-15 à 17:56

Multipost : Echantillon

Interdit par les règles du forum.
Dispersif, inefficace...
... et peu respectueux de ceux qui t'apportent de l'aide...

J'ai d'ailleurs déjà en grande partie répondu dans le topic d'origine.
Il suffit d'exécuter tes requêtes sur la base complète et sur l'échantillon (ou plusieurs, c'est encore mieux) et de comparer.

Pas besoin de "test statistique d'hypothèse"...
Puisque la population mère est là qui te tend les bras.

*** message déplacé ***



Vous devez être membre accéder à ce service...

Pas encore inscrit ?

1 compte par personne, multi-compte interdit !

Ou identifiez-vous :


Rester sur la page

Inscription gratuite

Fiches en rapport

parmi 1750 fiches de maths

Désolé, votre version d'Internet Explorer est plus que périmée ! Merci de le mettre à jour ou de télécharger Firefox ou Google Chrome pour utiliser le site. Votre ordinateur vous remerciera !