Inscription / Connexion Nouveau Sujet
Niveau école ingénieur
Partager :

Régression multi linéaire / suppression de variable

Posté par
SeunShaine
19-12-14 à 16:14

Bonjour,

J'ai un fichier de données excel sur lequel j'effectue une régression multi linéaire en fonction de E, puis une analyse de corrélation. J'obtiens ce résultat et on me demande de supprimer une variable si possible :

Comment faire le choix ?

Nom ColonneABCDE
A10.650.630.49-0.54
B0.6510.820.88-0.76
C0.630.8210.56-0.87
D0.490.880.561-0.63
E-0.54-0.76-0.87-0.631


Ma première idée était de supprimer B car elle est assez redondante quand on voit ses coefficients par rapport à C et D, qu'en pensez vous ?

Posté par
LeDino
re : Régression multi linéaire / suppression de variable 19-12-14 à 20:23

Citation :
J'effectue une régression multi linéaire en fonction de E
Mauvaise formulation.
Est-ce que E est la variable expliquée (plutôt notée Y habituellement) ?

Sinon, la démarche type d'une régression "stepwise" (pas à pas) consiste à inclure dans le modèle la variable la mieux corrélée (qui maximise R² et minimise les résidus...).
Puis à considérer le résidu de ce modèle et à chercher la variable suivante la mieux corrélée avec le résidu. Et ainsi de suite.
Eventuellement pour "fignoler", on peut également aux stades intermédiaires chercher quelle variable incluse on peut retirer du modèle à moindre coût sur la qualité (R²).
C'est ce qu'on peut faire ici si on veut retirer une variable parmi celles proposées.

Posté par
LeDino
re : Régression multi linéaire / suppression de variable 19-12-14 à 20:34

Citation :
Ma première idée était de supprimer B car elle est assez redondante quand on voit ses coefficients par rapport à C et D, qu'en pensez vous ?

Une régression stepwise (voir plus haut) permettrait de répondre plus finement.
Mais si tu dois te prononcer uniquement sur la base des corrélations, et si E est bien le Y à expliquer... alors ta déduction n'est pas idiote.

Y (E) s'explique au mieux par C (EC: -.87) :  donc on inclue C

B serait la 2ème variable candidate (EB: -.76)... mais comme B est fortement corrélée à C (déjà incluse), on peut penser qu'une grande part de l'information de B est déjà présente dans C.
De ce fait, D qui est la 3ème variable la plus corrélée à E (ED: -.63) a des chances d'être meilleure candidate que B, étant moins corrélée à C déjà incluse (DC: 0.56).
A ce stade, il est donc probable qu'un stepwise inclurait C puis D.

Avec un raisonnement similaire, B très corrélée à C et D, ferait probablement une moins bonne candidate que A nettement plus décorrélée de C et D déjà incluses.
Du coup effectivement, c'est B qui resterait sur la touche .

Posté par
SeunShaine
re : Régression multi linéaire / suppression de variable 19-12-14 à 21:08

Merci beaucoup pour votre réponse. Juste après on me demande de refaire une unique régression multi linéaire mais le R^2 diminue même si les coefficients s'améliorent.

Posté par
LeDino
re : Régression multi linéaire / suppression de variable 20-12-14 à 03:03

Tu t'attendais à quoi ?
Avec plus de variables explicatives tu as un meilleur R².
Tu retires une variable explicative : R² diminue. Rien de plus normal.

Si R² a peu diminué mais que tu es passé de 4 variables à 3...
... tu as probablement amélioré la robustesse et la capacité de généralisation de ton modèle. Si tu calcules l'erreur type sur la base d'apprentissage elle va augmenter légèrement. Mais il est possible qu'elle n'augmente pas (ou très peu) sur une base de test qui n'aurait pas servi à l'apprentissage. Le modèle est dans ce cas meilleur.

Mais de toutes façons ce qui compte, c'est les raisons pour lesquelles on te demande de retirer une variable du modèle. Peut-être y avait-il une grande colinéarité et que B était quasi intégralement définie par C et D, auquel cas il est légitime de la retirer.

Il n'y a qu'avec un énoncé complet, ou avec un accès direct aux données et à l'ensemble des résultats de modélisation qu'on peut se faire une idée. Donc là c'est à toi de savoir pourquoi on t'a demandé de retirer une variable...

---
NB : je t'ai posé une question (E=Y ?).
Ce serait correct de ta part d'y répondre.

Posté par
SeunShaine
re : Régression multi linéaire / suppression de variable 22-12-14 à 12:10

Bonjour,

Désolé pour la réponse tardive, E est la variable expliquée donc je suppose que c'est Y.
Merci pour votre aide en tout cas, je vais continuer à étudier ça.

Posté par
LeDino
re : Régression multi linéaire / suppression de variable 22-12-14 à 12:39

Citation :
E est la variable expliquée
C'est effectivement ce qu'il fallait préciser.
Qu'on l'appelle Y est anecdotique (c'est une question d'habitude...).

As-tu compris la finalité de l'exercice ?
As-tu pu conclure ?

Posté par
SeunShaine
re : Régression multi linéaire / suppression de variable 22-12-14 à 15:37

Oui je pense maintenant avoir compris la finalité de l'exercice et j'ai trouvé une réponse logique, merci pour votre aide.
Je reviendrai poster ici si lors de la correction je me rends compte que c'était tout autre chose.



Vous devez être membre accéder à ce service...

Pas encore inscrit ?

1 compte par personne, multi-compte interdit !

Ou identifiez-vous :


Rester sur la page

Inscription gratuite

Fiches en rapport

parmi 1768 fiches de maths

Désolé, votre version d'Internet Explorer est plus que périmée ! Merci de le mettre à jour ou de télécharger Firefox ou Google Chrome pour utiliser le site. Votre ordinateur vous remerciera !