Inscription / Connexion Nouveau Sujet
Niveau autre
Partager :

Echantillonnage d'une population et échantillonnage de questions

Posté par
cepamoi
18-09-06 à 15:49

Bonjour.

On a une population de N individus à qui on veut poser M questions. La réponse à une question est uniquement oui (1) ou non (0). Une fois qu'on a posé toutes les questions, on fait un bilan par individu. Si l'individu a répondu oui (1) au moins une fois alors on pose 1 dans le bilan. Si l'individu a répondu non (0) à toutes les questions, on pose 0. Voici un exemple dans un tableau avec 6 individus et 4 questions :

        Individus
      | 1 2 3 4 5 6
   ---|------------
    1 | 0 1 0 0 1 0
    2 | 1 0 0 1 1 0
    3 | 1 1 0 1 1 0
    4 | 0 1 0 1 1 0
   ----------------
Bilan | 1 1 0 1 1 0

Le nombre d'individus est en général grand (~10000) et le nombre de questions assez grand (~100). Sachant que poser une question coûte cher, on ne peut poser toutes les questions à tous les individus. On cherche donc à estimer la proportion de 0 et de 1 dans la ligne de bilan en minimisant le nombre de questions posées.
Une solution possible est de prendre un échantillon d'individus, et de leur poser les questions en s'arrêtant dès leur premier oui. Seuls les individus répondant non à toutes les questions coûteront cher.
Cependant, cette solution n'est pas assez satisfaisante. Y a-t-il moyen par exemple de se limiter à un nombre maximum de questions par individu, même s'il n'ont pas encore répondu oui ?
Merci pour vos suggestions.

Posté par
stokastik
re : Echantillonnage d'une population et échantillonnage de ques 18-09-06 à 16:52


Une piste :

Si pour un individu donné, on note R_1 sa réponse à la première question, ...,  R_M sa réponse à la m-ième question, on pourrait peut-être dire que les R_i sont indépendants et valent 0 ou 1 avec proba 1/2 et 1/2.

Notons S_n=\sum_{i=1}^n R_i. Peut-être qu'au lieu de poser  M  questions on pourrait en poser seulement un nombre  m  tel que P(S_m\geq 1)>0,95.

...



Posté par
cepamoi
re : Echantillonnage d'une population et échantillonnage de ques 18-09-06 à 17:11

En pratique (c'est un problème réel !), on ne connaît pas a priori les probabilités de réponse oui ou non. Elle dépendent de chaque individu. En général, il y a davantage de chances de répondre oui que non. Par ailleurs, on ne peut en général pas considérer que les questions (et donc les réponses) sont indépendantes. Par exemple, si un individu a répondu non à la question 1, il y a de grandes chances qu'il réponde non à la question 2 qui est similaire. Le problème est qu'on ne sait pas vraiment mesurer la similarité entre les questions...

Posté par
stokastik
re : Echantillonnage d'une population et échantillonnage de ques 18-09-06 à 17:16


Alors sans connaitre ces contraintes pratiques, on ne risque pas de résoudre ce problème....

Posté par
cepamoi
re : Echantillonnage d'une population et échantillonnage de ques 18-09-06 à 17:40

Alors admettons que l'on sache mesurer la similarité s(Q_1,Q_2) entre les questions 1 et 2, avec s(Q_1,Q_2) = 1 si le questions 1 et 2 sont les mêmes et s(Q_1,Q_2) = 0 si le questions n'ont rien à voir.

Posté par
stokastik
re : Echantillonnage d'une population et échantillonnage de ques 18-09-06 à 18:49


C'est quoi la similarité ?

Posté par
cepamoi
re : Echantillonnage d'une population et échantillonnage de ques 19-09-06 à 10:00

La similarité est un indice variant entre 0 et 1 qui mesure la "ressemblance" entre deux questions. La similarité vaut 0 si les deux questions sont indépendantes, et 1 si elles sont les mêmes.

Posté par
enzo
re : Echantillonnage d'une population et échantillonnage de ques 19-09-06 à 10:09

Salut,

Dans ce cas, une bonne mesure de similarité serait la distance de hamming (elle est conçue pour les données binaires).
En fait ton problème est un problème typique d'apprentissage statistique. Je suppose que tu possèdes déjà un échantillon de personnes ayant répondu au questionnaire?

Posté par
enzo
re : Echantillonnage d'une population et échantillonnage de ques 19-09-06 à 10:33

>stokastik

une mesure de similarité est une distance qui vérifie en plus la condition d'ultramétrie.

Posté par
cepamoi
re : Echantillonnage d'une population et échantillonnage de ques 19-09-06 à 10:51

J'ai en effet le résultat complet pour plusieurs populations et plusieurs questionnaires. Cependant, on ne peut pas en déduire grand chose pour d'autres populations et d'autres questionnaires.
La distance de Hamming me paraît être une bonne hypothèse comme mesure de similarité.

Posté par
enzo
re : Echantillonnage d'une population et échantillonnage de ques 19-09-06 à 10:57

Si les questions sont différentes à chaque fois, je ne vois pas comment tu peux t'y prendre. Dans ce genre de problème, on se sert des observations pour extraire des connaissances. C'est un processus d'induction. Mais si les variables (questions) diffèrent, tes descripteurs ne sont plus les mêmes...



Vous devez être membre accéder à ce service...

Pas encore inscrit ?

1 compte par personne, multi-compte interdit !

Ou identifiez-vous :


Rester sur la page

Inscription gratuite

Fiches en rapport

parmi 1675 fiches de maths

Désolé, votre version d'Internet Explorer est plus que périmée ! Merci de le mettre à jour ou de télécharger Firefox ou Google Chrome pour utiliser le site. Votre ordinateur vous remerciera !