lognutilisateur | celcius | farenheit | rfarenheit |
---|---|---|---|
7.36 | 1.5 | 34.7 | 35 |
8.06 | 0.2 | 32.4 | 32 |
8.67 | 6.8 | 44.2 | 44 |
8.58 | 10.1 | 50.2 | 50 |
8.70 | 10.3 | 50.5 | 51 |
06. Modèles linéaires (colinéarité)
2024
On s’intéresse au nombre de locations quotidiennes de Bixi entre 2014 et 2019 en fonction de la température de l’aéroport voisin de Dorval, enregistrée à 16h.
lognutilisateur | celcius | farenheit | rfarenheit |
---|---|---|---|
7.36 | 1.5 | 34.7 | 35 |
8.06 | 0.2 | 32.4 | 32 |
8.67 | 6.8 | 44.2 | 44 |
8.58 | 10.1 | 50.2 | 50 |
8.70 | 10.3 | 50.5 | 51 |
Soit le log du nombre quotidien de locations de Bixi en fonction de la température en degrés Celcius et Farenheit (et la température en \({}^{\circ}\)F arrondie au degré près). Si on ajuste le modèle linéaire \[\begin{align*} \texttt{lognutilisateur} = \beta_0 + \beta_{\texttt{c}} \texttt{celcius} + \beta_{\texttt{f}} \texttt{farenheit} + \varepsilon. \end{align*}\]
Supposons que le vrai effet (fictif) de la température sur le log du nombre de locations de vélo est \[\begin{align*} \mathsf{E}(\texttt{lognutilisateur} \mid \cdot) = \alpha_0+ \alpha_1 \texttt{celcius}. \end{align*}\]
Les coefficients du modèle qui n’inclut que la température Farenheit sont donc \[\begin{align*} \mathsf{E}(\texttt{lognutilisateur} \mid \cdot)= \gamma_0 + \gamma_1\texttt{farenheit}, \end{align*}\] avec \(\alpha_0 = \gamma_0 + 32\gamma_1\) et \(1.8\gamma_1 = \alpha_1\).
coef. | erreur-type | |
---|---|---|
cst | 8.844 | 0.028 |
Celcius | 0.049 | 0.001 |
coef. | erreur-type | |
---|---|---|
cst | 7.981 | 0.051 |
Farenheit | 0.027 | 0.001 |
Les paramètres du modèle postulé avec les deux variables, \[\begin{align*} \texttt{lognutilisateur} = \beta_0 + \beta_{\texttt{c}} \texttt{celcius} + \beta_{\texttt{f}} \texttt{farenheit} + \varepsilon, \end{align*}\] ne sont pas identifiables: n’importe laquelle combinaison linéaire des deux solutions donne le même modèle ajusté.
C’est la même raison pour laquelle on n’inclut que \(K-1\) variables indicatrices pour un facteur à \(K\) niveaux si le modèle inclut l’ordonnée à l’origine.
# Colinéarité exacte détectée
modlin3_bixicol <- lm(lognutilisateur ~ celcius + farenheit, data = bixicol)
summary(modlin3_bixicol)
##
## Call:
## lm(formula = lognutilisateur ~ celcius + farenheit, data = bixicol)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.5539 -0.2136 0.0318 0.2400 0.8256
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 8.84433 0.02819 313.7 <2e-16 ***
## celcius 0.04857 0.00135 35.9 <2e-16 ***
## farenheit NA NA NA NA
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.354 on 1182 degrees of freedom
## Multiple R-squared: 0.522, Adjusted R-squared: 0.521
## F-statistic: 1.29e+03 on 1 and 1182 DF, p-value: <2e-16
modlin4_bixicol <- lm(lognutilisateur ~ celcius + rfarenheit, data = bixicol)
summary(modlin4_bixicol)
##
## Call:
## lm(formula = lognutilisateur ~ celcius + rfarenheit, data = bixicol)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.5467 -0.2135 0.0328 0.2407 0.8321
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 9.5551 1.1475 8.33 2.3e-16 ***
## celcius 0.0886 0.0646 1.37 0.17
## rfarenheit -0.0222 0.0359 -0.62 0.54
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.354 on 1181 degrees of freedom
## Multiple R-squared: 0.522, Adjusted R-squared: 0.521
## F-statistic: 645 on 2 and 1181 DF, p-value: <2e-16
Règle générale, la colinéarité a les impacts suivants:
Pour une variable explicative donnée \(X_j\), définir \[\begin{align*} \mathsf{FIV}(j)=\frac{1}{1-R^2(j)} \end{align*}\] où \(R^2(j)\) est le coefficient de détermination \(R^2\) du modèle obtenu en régressant \({X}_j\) sur les autres variables explicatives.
\(R^2(j)\) donne la proportion de la variabilité de \(X_j\) expliquée par les autres variables.
Il n’y a pas de consensus mais, règle générale,
Ce graphique montre la relation entre \(Y\) et \(X_j\) une fois que l’on a pris en compte les autres variables explicatives.
Construction
Un facteur confondant est une variable explicative \(C\) qui est associé à la variable réponse \(Y\) et qui est aussi corrélé à la variable explicative \(X\) d’intérêt.
Le facteur confondant \(C\) peut biaiser la relation observée entre une variable explicative \(X\) et la variable réponse \(Y\), et donc complique l’interprétation.
L’échelon académique des professeurs est corrélé avec le sexe, puisqu’il y a plus d’hommes que de femmes qui sont titulaires, et ces derniers sont mieux payés en moyenne. La variable echelon
est un facteur confondant pour le sexe
.
coef. | erreur-type | stat | valeur p | |
---|---|---|---|---|
cst | 101.0 | 4.81 | 21.00 | < .001 |
sexe [homme] | 14.1 | 5.06 | 2.78 | .006 |
coef. | erreur-type | stat | valeur p | |
---|---|---|---|---|
cst | 76.64 | 4.43 | 17.29 | < .001 |
sexe [homme] | 4.94 | 4.03 | 1.23 | .220 |
échelon [agrégé] | 13.06 | 4.13 | 3.16 | .002 |
échelon [titulaire] | 45.52 | 3.25 | 14.00 | < .001 |
Quoi faire avec les facteurs confondants? On peut stratifier par différents niveaux du facteur confondant.
On peut aussi ajuster un modèle de régression avec plusieurs variables.
sexe
, en prenant en compte l’effet des autres variables explicatives.Les facteurs confondants sont essentiellement un problème pour les données observationnelles.
Dans un devis expérimental, un processus d’assignation aléatoire garantit que toutes les autres variables qui pourraient affecter \(Y\) sont équilibrées.
Dans ce cas, on peut tirer des conclusions sur l’effet de \(X\) sur \(Y\) sans ajuster pour les facteurs confondants.
Comment détecter la multicolinéarité
Si les variables sont exactement colinéaires, R éliminera celles qui sont superflues
Sinon, on peut examiner les corrélations entre variables, ou mieux encore les facteurs d’inflation de la variance.