05. Modèles linéaires (coefficient de détermination)
Léo Belzile, HEC Montréal
2024
Corrélation linéaire de Pearson
La corrélation linéaire mesure la force de la relation linéaire entre deux variables aléatoires \(X\) et \(Y\). \[\begin{align*}
\rho= \mathsf{cor}(X, Y) = \frac{{\mathsf{Co}}(X,Y)}{\sqrt{{\mathsf{Va}}(X){\mathsf{Va}}(Y)}}.
\end{align*}\]
La corrélation satisfait \(\rho \in [-1, 1]\).
\(|\rho|=1\) si et seulement si les \(n\) observations sont alignées.
Plus \(|\rho|\) est grande, moins les points sont dispersés.
Propriétés de la corrélation linéaire
Le signe de la corrélation détermine le signe de la pente (à la baisse pour \(\rho\) négatif, à la hausse pour \(\rho\) positive).
Si \(\rho>0\) (ou \(\rho<0\)), les deux variables sont positivement (négativement) associées, ce qui veut dire que \(Y\) augmente (diminue) en moyenne avec \(X\).
Figure 1: Nuages de points d’observations avec des corrélations de \(0.1\), \(0.5\), \(-0.75\) et \(0.95\) de \(A\) jusqu’à \(D\).
Corrélation et indépendance
Les variables indépendantes ont une corrélation nulle (mais pas nécessairement l’inverse).
Une corrélation linéaire de zéro indique seulement qu’il n’y a pas de dépendance linéaire entre les variables.
Figure 2: Quatre jeux de données avec des statistiques descriptives identiques, dont une corrélation linéaire de \(-0.06\).
Décomposition de la somme des carrés
Si on considère le modèle avec seulement une ordonnée à l’origine, la valeur ajustée pour \(Y\) est la moyenne globale et la somme des observations centrées au carré est \[\begin{align*}
\mathsf{SC}_c=\sum_{i=1}^n (Y_i-\overline{Y})^2
\end{align*}\] où \(\overline{Y}\) représente la valeur ajustée du modèle.
Si on inclut \(p\) variables explicatives, on obtient \[\begin{align*}
\mathsf{SC}_e=\sum_{i=1}^n (Y_i-\widehat{Y}_i)^2
\end{align*}\] Si on inclut plus de variables, \(\mathsf{SC}_e\) ne peut augmenter.
Pourcentage de variance expliquée
Considérons la somme du carré des résidus des deux modèles:
\(\mathsf{SC}_c\) pour le modèle avec seulement l’ordonnée à l’origine.
\(\mathsf{SC}_e\) pour le modèle de régression linéaire avec matrice du modèle \(\mathbf{X}\).
La différence \(\mathsf{SC}_c-\mathsf{SC}_e\) est la réduction de l’erreur associée à l’ajout de covariables de \(\mathbf{X}\) dans le modèle \[\begin{align*}
R^2=\frac{\mathsf{SC}_c-\mathsf{SC}_e}{\mathsf{SC}_c}
\end{align*}\] Ainsi, le coefficient \(R^2\) représente la proportion de variance de \(Y\) expliquée par \(\mathbf{X}\).
Coefficient de détermination
On peut démontrer que le coefficient de détermination \(R^2\) est le carré de la corrélation linéaire entre la variable réponse \(\boldsymbol{y}\) et les valeurs ajustées \(\widehat{\boldsymbol{y}}\), \[R^2 = \mathsf{cor}^2(\boldsymbol{y}, \widehat{\boldsymbol{y}}).\]
data(college, package ="hecmodstat")mod <-lm(salaire ~ sexe + echelon + service, data = college)summary(mod)$r.squared # R-carré dans la sortie## [1] 0.4y <- college$salaire # vecteur de variables réponseyhat <-fitted(mod) # valeurs ajustées ychapeaucor(y, yhat)^2# coefficient R-carré## [1] 0.4
\(R^2\) prend toujours des valeurs entre \(0\) et \(1\).
\(R^2\) n’est pas une mesure de la qualité de l’ajustement: le coefficient est non-décroissant à mesure que la dimension de \(\mathbf{X}\) augmente. Autrement dit, le plus de variables explicatives on ajoute, le plus grand le \(R^2\).