Fiche de mathématiques
> >

Echantillonnage

Partager :
Prérequis
Tu auras besoin dans ce chapitre de savoir calculer une fréquence et une probabilité ainsi que d'être capable de fournir une interprétation de ces calculs.

Enjeu
Dans ce chapitre, on va essayer d'extrapoler des valeurs à partir d'échantillons de population ou au contraire tirer des conclusions portant sur la population à partir des données en notre possession.

I. Echantillon et fluctuation

Il est parfois impossible d'étudier le caractère d'une population dans sa totalité. C'est le cas quand on étudie la population d'un pays mais aussi quand on s'intéresse à des lancers de dés, à l'étude qualitative de composants électroniques? On s'intéresse alors à une partie représentative de cette population qu'on appelle un échantillon.
Définition
Un échantillon de taille n est constitué des résultats de n répétitions indépendantes de la même expérience.
Un échantillon, pour être utilisable mathématiquement, doit être aléatoire.

Mise en garde : l'exemple des sondages électoraux ne peut être valable que si le sondage est réalisé à partir de tirages aléatoires dans la population. Certains résultats de sondages peuvent laisser penser que cela relève plus de la communication commerciale de certains instituts de sondage que d'uné réalité quelconque.

En admettant que le panel est bien aéatoire, penons l'exemple de ces sondages électoraux. Les instituts s'intéressent aux intentions de votes d'un panel d'individus très souvent compris entre 1 000 et 10 000 personnes. En fonction des résultats obtenus, ils sont alors capables de fournir une photographie à l'instant donné de l'opinion des habitants d'un pays, d'une région ou d'une ville. C'est ce qu'on appelle la distribution des fréquences.

Mais à chaque échantillon qu'on va choisir va correspondre une nouvelle distribution des fréquences différentes.

Regardons ce qui se passe quand on effectue 100 lancers de dés deux fois de suite à l'aide d'un algorithme sous algobox :

Voici la sortie logicielle
Echantillonnage : image 1


Obtenue à partir de l'algorithme suivant
Echantillonnage : image 2


Déterminons les fréquences associées à chacune des faces pour ces deux expériences
Echantillonnage : image 3


On constate donc qu'au fil des expériences les fréquences sont légèrement différentes. C'est ce qu'on appelle les fluctuations d'échantillonnage. Plus la taille de l'échantillon sera grande, moins les écarts entre les fréquences seront visibles.

Les instituts chargés de faire des statistiques essayent de faire un compromis entre la fiabilité des résultats et la taille de l'échantillon choisi. Ils fournissent, dans tous les cas, leurs résultats accompagnés de la taille de l'échantillon et de la marge d'erreur associée.

Voyons maintenant comment déterminer une fourchette raisonnable dans laquelle la majeure partie de nos valeurs sont censées se trouver.

II. Intervalle de fluctuation

On considère une population de n individus sur laquelle on connait la probabilité d'apparition p d'un caractère donné.
Définition
On appelle intervalle de fluctuation au seuil de 95% correspondant à un échantillon de taille n un intervalle centré sur p pour lequel la probabilité que la fréquence observée d'apparition du caractère est au moins égale à 0,95.

Remarque : il est impossible d'être certain que la fréquence appartienne à un intervalle donné sauf si on prend l'intervalle [0;1] du fait des fluctuations observées dans la partie précédente.
Propriété : Lorsque n \geq 25 et 0,2 \leq p \leq 0,8, un intervalle de fluctuation au seuil de 95% est donné par :
[p-\frac{1}{\sqrt{n}};p+\frac{1}{\sqrt{n}}]

Remarque : L'amplitude de cet intervalle est p+\frac{1}{\sqrt{n}}-(p-\frac{1}{\sqrt{n}})=\frac{2}{\sqrt{n}}.

Exemple : On lance 100 fois une pièce équilibrée et on s'intéresse à la fréquence d'apparition du « Pile ». On a donc n = 100 \text{ et } p = \frac{1}{2}.

L'intervalle de fluctuation au seuil de 95% est donc :

I =[\frac{1}{2}-\frac{1}{\sqrt{100}};\frac{1}{2}+\frac{1}{\sqrt{100}}]  = [\frac{1}{2}-\frac{1}{10};\frac{1}{2}+\frac{1}{10}]  =[0,4;0,6]


Remarque : Quand on doit fournir des arrondis, la borne de gauche de l'intervalle est arrondie par défaut et celle de droite par excès.

Par conséquent, ici, on devrait voir des fréquences d'apparition de « Pile » comprises entre 0,4 et 0,6 au gré des fluctuations.

Voyons maintenant si un échantillon est représentatif d'une population à l'aide de la méthode de prise de décision suivante.

On fait l'hypothèse que la proportion du caractère étudié dans la population est p.

On détermine un intervalle de fluctuation I au seuil de 95% la proportion p du caractère étudié dans un échantillon de taille n

On détermine la fréquence d'apparition f du caractère dans l'échantillon

Si f\notin I alors on peut rejeter l'hypothèse que l'échantillon soit compatible avec le modèle, au risque d'erreur de 5%

Si f\in I alors on ne peut pas rejeter l'hypothèse que l'échantillon soit compatible avec le modèle.

Exemple : Sur 100 lancers de pièces, on constate que « Pile » est sortie 58 fois. La fréquence observée est donc f=0,58. On émet l'hypothèse que la pièce est équilibrée. Est-ce raisonnable ?
Un intervalle de fluctuation au seuil de 95% est : I=[0,50-\frac{1}{\sqrt{100}};0,50+\frac{1}{\sqrt{100}}]=[0,4;0,6].

Par conséquent f \in I et l'hypothèse que la pièce soit équilibrée n'est pas remise en cause au seuil de confiance de 95%.

III. Intervalle de confiance

Dans cette partie, nous allons adopter une position différente. Nous voulons déterminer la proportion p d'un caractère dans une population à partir d'échantillons représentatifs. On considère ici encore un échantillon de taille n pour lequel la fréquence observée du caractère est f.
Propriété
Au moins 95% des intervalles de la forme [f-\frac{1}{\sqrt{n}};f+\frac{1}{\sqrt{n}}] contiennent la proportion p.

Preuve : On a vu précédemment que la probabilité que f appartienne à l'intervalle [p-\frac{1}{\sqrt{n}};p+\frac{1}{\sqrt{n}}] est d'au moins de 0,95.

Cela signifie donc que p-\frac{1}{\sqrt{n}} \laq f et f\leq p+\frac{1}{\sqrt{n}}

Donc p \leq f+\frac{1}{\sqrt{n}} \text{ et } f-\frac{1}{\sqrt{n}}\leq p

Cela signifie qu'on peut donc estimer la valeur de p à l'aide de ce type d'intervalle, appelé intervalle de confiance, avec un seuil de confiance de 95%.

Cela est particulièrement utile dans les sondages d'opinion puisqu'il est impossible de sonder un pays tout entier.

Exemple : Un sondage effectué auprès de 1 000 personnes indique que 52% d'entre-elles sont favorables à un projet d'aménagement du territoire.

Déterminons un intervalle de confiance au seuil de 95% :

I=[0,52-\frac{1}{\sqrt{1000}};0,52+\frac{1}{\sqrt{1000}}]\approx[0,48;0,56]


Cela signifie donc, au seuil de confiance de 95%, qu'entre 48% et 56% de la population est favorable au projet. On ne peut donc pas être certain que la majorité y est favorable.
Publié le
ceci n'est qu'un extrait
Pour visualiser la totalité des cours vous devez vous inscrire / connecter (GRATUIT)
Inscription Gratuite se connecter


Vous devez être membre accéder à ce service...

Pas encore inscrit ?

1 compte par personne, multi-compte interdit !

Ou identifiez-vous :


Rester sur la page

Inscription gratuite

Fiches en rapport

parmi 1674 fiches de maths

Désolé, votre version d'Internet Explorer est plus que périmée ! Merci de le mettre à jour ou de télécharger Firefox ou Google Chrome pour utiliser le site. Votre ordinateur vous remerciera !