Sélection de variables
Exercice 2.1
Le but de l’exercice est de bâtir un modèle prédictif pour le nombre annuel de demandes d’admission à partir de la base de données college
.
- Faites une analyse exploratoire des variables explicatives:
- Quelles variables devraient êtres exclues de la modélisation? Justifiez votre réponse.
- Comparez la variable réponse avec les autres variables: y a-t-il des transformations qui améliorerait l’ensemble de variables candidates: interactions, création de variables dychotomiques, transformations (racines carrée, transformation logarithmique, etc.)?
- Vérifiez s’il y a des variables catégorielles encodées comme des variables numériques.
- Scindez la base de données en échantillon avec données d’entraînement (environ 2/3 des données) et échantillon de validation; utilisez le germe aléatoire
60602
viaset.seed(60602)
.- Sélectionnez un modèle à l’aide d’une des méthodes couvertes, mais en basant votre choix sur l’erreur moyenne quadratique évaluée sur l’échantillon de validation.
- Répétez la sélection, cette fois en prenant comme critère pour l’erreur moyenne quadratique évaluée par validation croisée (aléatoire) à cinq plis.
- Créez un tableau avec le nombre de coefficients de votre modèle final et un estimé de l’erreur moyenne quadratique obtenu par validation externe ou croisée.