logo

Régression linéaire


Régression linéaire : encyclopédie mathématiques

wikipediaCet article est issu de l'encyclopédie libre Wikipedia.
Vous pouvez consulter l'article ici ainsi que son historique.
Les textes et les images sont disponibles sous les termes de la Licence de documentation libre GNU.
Page d'aide sur l'homonymie Pour les articles homonymes, voir Régression.

En statistiques et en économétrie, un modèle de régression linéaire est un modèle de régression d'une variable expliquée sur une ou plusieurs variables explicatives dans lequel on fait l'hypothèse que la fonction qui relie les variables explicatives à la variable expliquée est linéaire dans ses paramètres.

Formellement, on modèlise la relation entre une variable alĂ©atoire y et un vecteur de variables alĂ©atoires x. De manière gĂ©nĂ©rale, le modèle linĂ©aire peut s'Ă©crire de la manière suivante :


y = \beta_0 + \beta_1 x_1 + \ldots + \beta_K x_K + u

y dĂ©signe la variable expliquĂ©e. Le vecteur x dĂ©signe l'ensemble des variables explicatives : (x_1,x_2,\ldots,x_K). u dĂ©signe le terme d'erreur. Il est parfois appelĂ© perturbation.

On suppose qu'on dispose de donnĂ©es sur les variables y, x_1, x_2, \ldots, x_K. On cherche Ă  estimer le vecteur β des paramètres : (\beta_0,\beta_1, \ldots , \beta_K). La rĂ©gression est dite linĂ©aire parce qu'elle impose une forme fonctionnelle linĂ©aire dans les paramètres du modèle.

On parle aussi de modèle linéaire ou de modèle de régression linéaire.

En général, le modèle de régression linéaire désigne un modèle dans lequel l'espérance conditionnelle de y sachant x est une transformation affine de x. Cependant, on peut aussi considérer des modèles dans lesquels c'est la médiane conditionnelle de y sachant x ou n'importe quel quantile de la distribution de y sachant x qui est une transformation affine de x[1].

Le modèle de régression linéaire est souvent estimé par la méthode des moindres carrés mais il existe aussi de nombreuses autres méthodes pour estimer ce modèle. On peut par exemple estimer le modèle par maximum de vraisemblance ou encore par inférence bayésienne.

Bien qu'ils soient souvent présentés ensemble le modèle linéaire et la méthode des moindres carrés ne désignent pas la même chose. Le modèle linéaire désigne une classe de modèles qui peuvent être estimés par un grand nombre de méthodes et la méthode des moindres carrés désigne une méthode d'estimation. Elle peut être utilisée pour estimer différents types de modèles.

Sommaire

[modifier] Histoire

La première régression linéaire est attribuée à Francis Galton en 1886. Dans son article, Galton régresse la taille des fils en fonction de la taille des pères. Il constate un phénomène de régression vers la moyenne[2].

[modifier] Applications

Le modèle de régression linéaire a de nombreuses applications pratiques. Il permet notamment de faire des analyses de prédiction. Après avoir estimé un modèle de régression linéaire, on peut prédire quel serait le niveau de y pour des valeurs particulières de x.

Il permet également d'estimer l'effet d'une variable sur une autre en contrôlant par d'autres facteurs. Par exemple, dans le domaine des sciences de l'éducation, on peut évaluer l'effet de la taille des classes sur les performances scolaires des enfants en contrôlant par la catégorie socio-professionnelle des parents ou par l'emplacement géographique de l'établissement.

[modifier] En économétrie

Le modèle linĂ©aire est très utilisĂ© en Ă©conomĂ©trie. Il est prĂ©sentĂ© dans de très nombreux manuels d'Ă©conomie[3]. Il existe de nombreux exemples dans la littĂ©rature :

  • Mankiw, Romer et Weil 1992 utilisent un modèle linĂ©aire pour tester empiriquement la pertinence du modèle de Solow.
  • Levitt 1997 utilise un modèle linĂ©aire pour estimer l'effet du nombre de policiers sur la criminalitĂ©.
  • Acemoglu, Johnson et Robinson 2002 utilisent une rĂ©gression linĂ©aire pour estimer l'effet des institutions sur le dĂ©veloppement actuel des pays.
  • Jonathan Gruber et Daniel Hungerman utilisent un modèle linĂ©aire pour analyser sur donnĂ©es amĂ©ricaines l'effet des lois autorisant le travail le dimanche sur la participation religieuse[4].

[modifier] En sciences politiques

  • Gelman et King 1990 utilisent un modèle linĂ©aire pour estimer l'avantage des candidats sortants lors des Ă©lections Ă  la chambre des reprĂ©sentants des États-Unis.

[modifier] En sociologie

[modifier] Le modèle

[modifier] Notations

On rencontre principalement trois types de notations[5].

[modifier] La notation simple


y_i = \beta_0 + \beta_1 x_{1,i} + \ldots + \beta_K x_{K,i} + u_{i}

[modifier] La notation vectorielle

Si on appelle β le vecteur (\beta_0,\ldots,\beta_K) et xi le vecteur (1,x_{1,i},\ldots,x_{K,i}), on peut réécrire le modèle de la manière suivante[6] :

yi = xi'β + ui

[modifier] La notation matricielle

Enfin, on rencontre aussi souvent une notation matricielle[7] :

y = Xβ + u avec 
 y = \begin{pmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{pmatrix}, \quad
 X = \begin{pmatrix} x'_1 \\ x'_2 \\ \vdots \\ x'_n \end{pmatrix}
 = \begin{pmatrix} 1 & x_{11} & \cdots & x_{1K} \\
 1 & x_{21} & \cdots & x_{2K} \\
 \vdots & \ddots & \vdots \\
 1 & x_{n1} & \cdots & x_{nK}
 \end{pmatrix}, \quad
 \beta = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_K \end{pmatrix}, \quad
 u = \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix}.

[modifier] Terminologie

Le modèle linĂ©aire est utilisĂ© dans un grand nombre de champs disciplinaires. Il en rĂ©sulte une grande variĂ©tĂ© dans la terminologie. Soit le modèle suivant :


y = \beta_0 + \beta_1 x_1 + \ldots + \beta_K x_K + u

La variable y est appelée variable expliquée ou variable endogène. Les variables (x_1,x_2,\ldots,x_K) sont appelées variables explicatives, variables exogènes ou encore prédicteurs. u est appelé terme d'erreur ou perturbation.

On note généralement \hat \beta le vecteur des paramètres estimés. On définit la valeur prédite \hat y_i = x_i \hat \beta et le résidu \hat u_i = y_i - \hat y_i.

[modifier] Les principales hypothèses

H1 L'hypothèse d'exogĂ©nĂ©itĂ© 

En notation vectorielle :

\mathbb E (u_i|x_i) = 0

En notation matricielle :

\mathbb E (u | X) = 0

C'est une hypothèse d'indépendance entre le terme d'erreur et les variables explicatives.

H2 L'hypothèse de non colinĂ©aritĂ© des variables explicatives 

En notation vectorielle :

\mathbb E (x_ix_i') inversible avec xi' la transposée du vecteur xi

En notation matricielle :

\mathbb E (X'X) inversible avec X' la transposée de la matrice X.

H3 L'hypothèse de non corrĂ©lation des rĂ©sidus 


\forall i \neq j \quad \mathbb E(u_i u_j|x_i) = 0

Cette hypothèse est souvent violée lorsqu'il s'agit de séries temporelles où les erreurs sont souvent dites autocorrélées[8].

H4 L'hypothèse d'homoscĂ©dasticitĂ© 


\forall i  \quad \mathbb E(u_i^2|x_i) = \sigma^2

Si les deux prĂ©cĂ©dentes hypothèses sont vĂ©rifiĂ©es, on peut Ă©crire sous forme matricielle : 
\mathbb V(u|X) = \sigma^2 I_n
avec In la matrice identité de taille n.

H5 L'hypothèse de normalitĂ© des termes d'erreur 


u_i | x_i \sim \mathcal N (0, \sigma^2)

Sous forme matricielle :


u | X \sim \mathcal N (0, \sigma^2 I_n)

[modifier] Le modèle linéaire simple

Modèle de régression linéaire simple

On appelle généralement modèle linéaire simple un modèle de régression linéaire avec une seule variable explicative. Ce modèle est souvent présenté dans les manuels de statistiques à des fins pédagogiques.

yi = β0 + β1xi + ui


[modifier] Estimateur des moindres carrés ordinaires

L'estimateur des moindres carrĂ©s ordinaires est la solution du programme de minimisation de la somme des carrĂ©s des Ă©carts entre les valeurs prĂ©dites et les valeurs observĂ©es par rapport aux deux paramètres b0 et b1 :

 \text{Argmin}_{b_0,b_1} \sum_{i = 1}^n (y_i - b_0 x_i - b_1)^2

En dĂ©rivant par rapport aux deux arguments, on obtient :  \hat{\beta_1} = \frac { \sum x_i \sum y_i - n \sum x_i y_i } { \left ( \sum x_i \right ) ^ 2 - n \sum x_i^2 } = \frac{ \sum (x_i -\bar{x})(y_i-\bar{y} ) }{\sum ( x_i - \bar{x})^2 } et  \hat{\beta_0} = \frac { \sum y_i - \hat{\beta}_1 \sum x_i } { n } = \bar{y} - \hat{\beta_1} \bar{x} avec \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i la moyenne empirique des xi et \bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i la moyenne empirique des yi.

[modifier] Le modèle standard

On appelle modèle standard un modèle dans lequel les hypothèses d'exogénéité (H1), de non colinéarité (H2), de non corrélation des termes d'erreur (H3) et d'homoscédasticité sont respectées (H4).

[modifier] Estimation du modèle

Ce modèle peut être estimé par la méthode des moindres carrés ordinaires.

L'estimateur des moindres carrés ordinaires peut s'écrire \hat\beta = \big(\, \tfrac{1}{n}{\textstyle\sum} x_i x'_i \,\big)^{-1}
 \big(\, \tfrac{1}{n}{\textstyle\sum} x_i y_i \,\big) sous forme vectorielle ou 
\hat \beta = (X'X)^{-1} X'y
sous forme matricielle[7].

D'après le Théorème de Gauss-Markov, l'estimateur des moindres carrés ordinaires est le meilleur estimateur linéaire sans biais[9],[10].

Sous l'hypothèse de normalité des termes d'erreur (H5), l'estimateur des moindres carrés est aussi l'estimateur du maximum de vraisemblance[9].

[modifier] Le modèle avec corrélations des termes d'erreur ou hétéroscédasticité

Il arrive souvent que les hypothèses H3 et H4 ne soient pas vĂ©rifiĂ©es. On distingue alors deux cas : le cas oĂą l'on peut faire des hypothèses raisonnables sur la matrice de variance-covariance du vecteur des perturbations et le cas oĂą on ne fait aucune hypothèse sur cette matrice.

[modifier] Estimation du modèle par les moindres carrés généralisés

Si on note Ω la matrice de variance-covariance du vecteur des perturbations u, on peut dĂ©finir l'estimateur des moindres carrĂ©s gĂ©nĂ©ralisĂ©s[11] : 
 \hat\beta = (X'\Omega^{-1}X)^{-1}X'\Omega^{-1}y,

[modifier] Estimation du modèle par les moindres carrés quasi-généralisés

[modifier] Le modèle à variables instrumentales

Lorsque l'une des variables explicatives est corrélée au terme d'erreur (H1 violée), alors on peut avoir recours aux variables instrumentales. On appelle variable instrumentale une variable z qui a un effet sur les variables explicatives suspectées d'endogénéité mais n'est pas corrélée avec le terme d'erreur.

Lorsque l'hypothèse H1 d'exogénéité n'est pas crédible, on peut utiliser la méthode des variables instrumentales. Dans ce cas, il faut trouver un ensemble de variables dites instrumentales qui doivent être à la fois exogènes et corrélées aux variables explicatives du modèle. On note souvent le vecteur des variables instrumentales zi et la matrice des variables instrumentales Z.

Formellement, on introduit donc deux nouvelles hypothèses :

  • L'hypothèse d'exogĂ©nĂ©itĂ© des instruments : \mathbb E (u_i|z_i) = 0 sous forme vectorielle ou \mathbb E (u | Z) = 0 sous forme matricielle.
  • Condition de rang : Z doit ĂŞtre corrĂ©lĂ© Ă  X.

[modifier] Application

Très souvent utilisé en économétrie, le modèle à variables instrumentales est aussi utilisé en sciences politiques[12].

[modifier] Estimation du modèle par la méthode des doubles moindres carrés

Ce modèle peut ĂŞtre estimĂ© par la mĂ©thode des doubles moindres carrĂ©s et dans ce cas, on obtient : \hat\beta = [X'Z(Z'Z)^{-1}Z'X]^{-1}[X'Z(Z'Z)^{-1}Z'y][13].


[modifier] Extensions

  • Le modèle linĂ©aire gĂ©nĂ©ralisĂ© est une extension du modèle linĂ©aire dans laquelle on pose y_i = g^{-1} (\beta_0 + \beta_1 x_x + \ldots + x_K) + u_i. Cette classe de modèles comprend le modèle linĂ©aire, le modèle de rĂ©gression logistique, le modèle probit, le modèle de Poisson, etc. Elle a Ă©tĂ© dĂ©veloppĂ©e par Nelder et Wedderburn 1972 et popularisĂ© par le livre de McCullagh et Nelder 1989[14],[15],[16].
  • Le modèle linĂ©aire hiĂ©rarchique ou modèle linĂ©aire multiniveau est un modèle dans lequel il y a au moins deux niveaux d'observations, par exemple la rĂ©gion et les individus et dans lequel on va permettre aux coefficients de varier. Par exemple, le modèle suivant est un modèle linĂ©aire hiĂ©rarchique : y_{j,i} = \beta_{0,j} + \beta_{1,j} x_{1,j,i} + \ldots + \beta_{K,j} x_{K,j,i} + u_{j,i}[17].
  • Le modèle de rĂ©gression quantile linĂ©aire[18].
  • Le modèle additif gĂ©nĂ©ralisĂ©
  • Le modèle Tobit pour traiter les variables censurĂ©es.
  • Le modèle de sĂ©lection ou modèle Heckit
  • Les modèles Ă  Ă©quations simultanĂ©es

[modifier] Références

  1. ↑ (en) Charles Manski, « Regression Â», dans Journal of Economic Literature, vol. 29, no 1, mars 1991, p. 34-50 [texte intĂ©gral (page consultĂ©e le 01/07/2011)] 
  2. ↑ (en) Francis Galton, « Regression Towards Mediocrity in Hereditary Stature Â», dans Journal of the Anthropological Institute, vol. 15, 1886, p. 246-263 [texte intĂ©gral] 
  3. ↑ Cameron et Trivedi 2005, Angrist et Pischke 2008, ...
  4. ↑ (en) Jonathan Gruber et Daniel Hungerman, « The Church versus the Mall : What happens when religion faces increased secular competition ? Â», dans The Quarterly Journal of Economics, vol. 123, no 2, mai 2008, p. 831-862 [texte intĂ©gral (page consultĂ©e le 23 janvier 2012)] 
  5. ↑ Voir par exemple Gelman et Hill 2006, p. 37
  6. ↑ Cameron et Trivedi 2005, p. 70
  7. ↑ a et b Cameron et Trivedi 2005, p. 71
  8. ↑ (en) Alan Krueger, « Symposium on Econometric Tools Â», dans The Journal of Economic Perspectives, vol. 15, no 4, automne 2001, p. 3-10 [texte intĂ©gral (page consultĂ©e le 17 janvier 2012)] 
  9. ↑ a et b Wasserman 2004, Chapitre 13
  10. ↑ Gelman et Hill 2006, p. 40
  11. ↑ Cameron et Trivedi 2005, p. 82, Ă©quation 4.28
  12. ↑ (en) Allison Sovey et Donald Green, « Instrumental Variables Estimation in Political Science: A Readers’ Guide Â», dans American Journal of Political Science, vol. 55, no 1, janvier 2011, p. 188-200 
  13. ↑ Cameron et Trivedi 2005, p. 101, Ă©quation 4.53
  14. ↑ . (en) Nelder et Wedderburn, « Generalized linear models Â», dans Journal of the Royal Statistical Society Series A, vol. 135, 1972, p. 370–384 
  15. ↑ (en) McCullagh et Nelder, Generalized linear models, Londres, Chapman & Hall, 1989 
  16. ↑ (en) Daniel Wright, « Ten Statisticians and Their Impacts for Psychologists Â», dans Perspectives on psychological science, vol. 4, no 6, novembre 2009, p. 587-597 [texte intĂ©gral (page consultĂ©e le 16 dĂ©cembre 2011)] 
  17. ↑ Gelman et Hill 2006, p. 1
  18. ↑ Cameron et Trivedi 2005, p. 85

[modifier] Bibliographie

  • (en) Francis Galton, « Regression Towards Mediocrity in Hereditary Stature Â», dans Journal of the Anthropological Institute, vol. 15, 1886, p. 246-263 [texte intĂ©gral] 
  • Michel Armatte, Histoire du modèle linĂ©aire. Formes et usages en statistique et en Ă©conomĂ©trie jusqu’en 1945, 1995, thèse EHESS sous la direction de Jacques Mairesse.
  • (en) E.H. Lehmann, « On the history and use of some standard statistical models Â», dans Deborah Nolan et Terry Speed, Probability and Statistics: Essays in Honor of David A. Freedman, Beachwood, Ohio, USA, Institute of Mathematical Statistics, 2008 [lire en ligne (page consultĂ©e le 28 dĂ©cembre 2011)] 

[modifier] Manuels

  • (en) Larry Wasserman, All of Statistics : A Concise Course in Statistical Inference, New York, Springer-Verlag, 15 septembre 2004, 461 p. (ISBN 978-0387402727), p. chapitre 13 
  • (en) Joshua Angrist et Jörn-Steffen Pischke, Mostly Harmless Econometrics : An Empiricist's Companion, Princeton University Press, 2008, 392 p. (ISBN 978-0691120355) 
  • (en) Colin Cameron et Pravin Trivedi, Microeconometrics: Methods And Applications, Cambridge University Press, 2005, 1056 p. (ISBN 978-0521848053) 
  • (en) Andrew Gelman et Jennifer Hill, Data Analysis Using Regression And Multilevel/Hierarchical Models, Cambridge University Press, coll. Â« Analytical Methods for Social Research Â», 18 dĂ©cembre 2006, 1re Ă©d., 648 p. (ISBN 978-0521686891) 

[modifier] Applications

  • (en) Andrew Gelman et Gary King, « Estimating incumbency advantage without bias Â», dans American Journal of Political Science, vol. 34, no 4, novembre 1990, p. 1142-1164 
  • (en) Gregory Mankiw, David Romer et David Weil, « A Contribution to the Empirics of Economic Growth Â», dans Quarterly Journal of Economics, vol. 107, no 2, 1992, p. 407-437 
  • (en) Steven Levitt, « Using electoral cycles in police hiring to estimate the effect of police on crime Â», dans American Economic Review, vol. 87, no 3, 1997, p. 270-290 [texte intĂ©gral] 
  • (en) Daron Acemoglu, Simon Johnson et James Robinson, « Reversal of Fortune: Geography and Institutions in the Making of the Modern World Income Distribution Â», dans Quarterly Journal of Economics, vol. 117, no 4, 2002, p. 1231-1294 

[modifier] Voir aussi

[modifier] Articles connexes

  • Statistiques
  • RĂ©gression (statistiques)
  • CorrĂ©lation (mathĂ©matiques)

[modifier] Liens externes

wikipediaCet article est issu de l'encyclopédie libre Wikipedia.
Vous pouvez consulter l'article ici ainsi que son historique.
Les textes et les images sont disponibles sous les termes de la Licence de documentation libre GNU.


maths haut de pagehaut Retrouvez cette page sur ilemaths l'île des mathématiques
© Tom_Pascal & Océane 2012