01. Inférence statistique
2024
La loi d’une population (qui décrit les valeurs possibles et leur fréquence/probabilité) contient toute l’information nécessaire.
La statistique traite de la prise de décisions dans un contexte d’incertitude.
Ce cours traite de modélisation des données. Une citation célèbre attribuée à George Box dit que
tous les modèles sont faux, mais certains sont utiles.
McCullagh et Nelder (1989) expliquent dans le préambule de leur livre
La modélisation en science demeure, du moins partiellement, un art. Certains principes existent, en revanche, pour guider le modélisateur. Le premier est que tous les modèles sont faux; mais que certains sont meilleurs et le modélisateur doit chercher le meilleur à sa portée. En même temps, il est sage de reconnaître que la quête perpétuelle de la vérité n’est pas envisageable.
Et David R. Cox de rajouter
…il n’est pas utile de simplement énoncer que tout modèle est faux. L’idée même de modèle sous-tend une notion de simplification et d’idéalisation. L’idée qu’un système physique, biologique ou sociologique complexe puisse être décrit de manière exacte par quelques formules est franchement absurde. La construction de représentations idéalisées qui capturent les aspects stables les plus importants du système est néanmoins une partie essentielle de toute analyse scientifique et les modèles statistiques ne diffèrent pas en cela d’autres types de modèles.
Un modèle stochastique (ou aléatoire) combine typiquement
Les modèles sont des “golems” qui servent à obtenir des réponses à nos questions.
On se base notamment sur les informations suivantes
Sans ajustement supplémentaire, on ne peut tirer de conclusions ou d’énoncés de cause à effet avec des données observationnelles.
Est-ce que les examens pratiques de conduite en Grande-Bretagne sont plus faciles dans les régions à faible densité de population? Source: The Guardian, August 23rd, 2019
Modèle: régression binomiale logistique. Données gbconduite
, paquet R hecmodstat
.
Modèle: Analyse de variance pour données répétées, ou tests nonparamétrique de Friedman. Données BRLS21_T3
, paquet hecedsm
.
Brodeur et al. (2021)
Une expérience intra-sujet a été menée dans un simulateur de conduite où 31 participants ont reçu des messages textuels et y ont répondu sous quatre scénarios: ils ont reçu des notifications (1) sur un téléphone portable, (2) sur une montre intelligente et (3) sur un haut-parleur, puis ont répondu oralement à ces messages. Ils ont également (4) reçu des messages textes où ils devaient répondre par texte aux notifications.
Sokolova, Krishna, et Döring (2023)
Huit études documentent le biais de perception du respect de l’environnement selon lequel les consommateurs jugent les emballages en plastique enrobés d’un emballage carton superflu plus respectueux de l’environnement que les emballages en plastique identiques sans carton.
Modèle: régression linéaire avec contrastes. Données SKD23_S2A
, paquet hecedsm
Upworthy.com, un éditeur de médias américain, a révolutionné la publicité en ligne en effectuant des tests A/B systématiques pour comparer les différentes formulations des titres, l’emplacement du texte et de l’image afin de déterminer ce qui attire le plus l’attention.
Les archives de recherche d’Upworthy (Matias et al. 2021) contiennent les résultats de 22743 expériences, avec un taux moyens de clics de 1.58% (écart type de 1.23%).
Modèle: régression Poisson avec décalage. Données upworthy_sesame
, paquet hecbayes
.
Brucks et Levav (2022)
Dans une étude en laboratoire et une expérience sur le terrain dans cinq pays (en Europe, au Moyen-Orient et en Asie du Sud), nous montrons que la vidéoconférence inhibe la production d’idées créatives […]
Nous démontrons que la vidéoconférence entrave la production d’idées parce que les communicants se concentrent sur l’écran, ce qui incite à une focalisation cognitive plus étroite. Nos résultats suggèrent que l’interaction virtuelle a un coût cognitif pour la génération d’idées créatives.
BL22_E
, paquet hecedsm
BL22_L
, paquet hecedsm
.Moon et VanEpps (2023)
Dans sept études, nous démontrons que les suggestions de montants, où on propose des choix multiples sur le montant à donner (par exemple, 5\(, 10\) ou 15$), augmentent les contributions par rapport aux contributions libres.
Nos résultats offrent de nouvelles perspectives conceptuelles sur la façon dont ces propositions augmentent les contributions, ainsi que des implications pratiques pour les organisations caritatives afin d’optimiser les contributions.
Modèle: régression Tobit de type II, régression Poisson. Données MV23_S1
du paquet hecedsm
.
Duke et Amir (2023)
Les clients doivent souvent décider de la quantité à acheter. La présente étude présente et compare le format de vente quantitatif-séquentiel, dans lequel les acheteurs prennent séparément les décisions d’achat et de quantité, avec le format de vente quantitatif-intégré, dans lequel les acheteurs prennent simultanément la décision d’acheter ou non et la quantité à acheter. Bien que les détaillants utilisent souvent le format séquentiel, nous démontrons que le format intégré peut augmenter les ventes.
Une expérience sur le terrain menée auprès d’une grande entreprise technologique a montré que l’intégration des quantités permettait d’augmenter considérablement les ventes, de plus d’un million de dollars par an.
Modèle: régression logistique. Données DA23_E1
, paquet hecedsm
Des maires ont demandé à la Régie de l’énergie d’enquête sur un possible cartel de l’essence en Gaspésie, où les prix au détail étaient anormalement élevés. Le rapport a conclu que les prix étaient plus élevés qu’attendu, mais que le nombre de détaillants par capita était plus élevé, ce qui réduisait les volumes de ventes et pouvait expliquer l’augmentation des marges observées.
Modèle: régression linéaire avec erreurs autorégressives. Données renergie
, paquet hecmodstat
.
On ne peut comparer des statistiques sans prendre en compte l’incertitude inhérente due à la leur estimation à l’aide d’un échantillon aléatoire.
Plus le rapport signal/bruit est important, plus notre capacité à détecter des différences existantes est grande.
À mesure que l’on collecte plus d’observations et que la taille de l’échantillon augmente, on peut mieux discriminer.
Un test d’hypothèse est une règle de décision binaire (rejeter ou ne pas rejeter)
Voici les étapes de la démarche.
La présomption d’innocence est de mise (on regarde tout comme si l’hypothèse nulle était vraie).
Le centre de recherche en expérience utilisateur de HEC Montréal, le Tech3Lab, a effectué une étude sur la distraction causée le fait de texter en marchant.
On s’intéresse au temps (en secondes) que prend une personne pour apercevoir cet obstacle (mesuré à l’aide d’un encéphalogramme).
c
)t
)On exprime l’hypothèse en fonction de la différence: \[\begin{align*} \mathscr{H}_a: \mu_{\texttt{t}} - \mu_{\texttt{c}}>0. \end{align*}\]
On ne va juger la preuve contre l’hypothèse nulle que pour une seule valeur numérique.
On s’intéresse à la différence de temps de réaction (moyenne)
##
## Paired t-test
##
## data: t and c
## t = 3, df = 34, p-value = 0.003
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## 0.131 Inf
## sample estimates:
## mean difference
## 0.313
La loi nulle nous renseigne sur les valeurs plausibles de la statistique si l’hypothèse nulle tient la route, et leurs fréquence ou probabilité relative.
Si on applique la fonction de répartition de la loi nulle à la statistique, on obtient une valeur dans l’intervalle \([0,1]\).
La valeur-\(p\) est la probabilité que la statistique de test soit égale ou plus extrême que la valeur calculée sur l’échantillon, si l’hypothèse nulle \(\mathscr{H}_0\) est vraie
Mise en garde
L’American Statistical Association (ASA) a publié une liste de principes détaillant les principales erreurs d’interprétation des valeurs-\(p,\) notamment
Si on répèt l’expérience avec des échantillons aléatoires simples, on s’attend à ce que les valeurs-\(p\) soit uniformes si \(\mathscr{H}_0\) est vraie et que la loi nulle est calibrée.
Sous l’alternative, les valeurs-\(p\) auront tendance à être plus petites.
Si la loi \(\mathscr{H}_0\) est vraie et que notre étalon de mesure est calibré, les valeurs-\(p\) devraient suivre une loi uniforme
Pour prendre une décision, on compare notre valeur-\(p\) \(P\) avec le niveau du test \(\alpha\):
La valeur fixe \(\alpha \in (0, 1)\) est la probabilité de rejeter \(\mathscr{H}_0\) quand cette dernière est vraie.
Décision \ vrai modèle | \(\mathscr{H}_0\) | \(\mathscr{H}_a\) |
---|---|---|
ne pas rejeter \(\mathscr{H}_0\) | \(\checkmark\) | erreur de type II |
rejeter \(\mathscr{H}_0\) | erreur de type I | \(\checkmark\) |
On cherche à contrôler l’erreur de type I (soit rejeter \(\mathscr{H}_0\) si \(\mathscr{H}_0\) est vraie).
Puisque que l’on fixe le niveau \(\alpha\), on n’a pas de contrôle sur l’erreur de type II
On aimerait être en mesure de détermine si \(\mathscr{H}_0\) est fausse et, le cas échéant, rejeter cette hypothèse.
La puissance d’un test est la probabilité de rejeter \(\mathscr{H}_0\) quand elle est fausse, soit \[\begin{align*} \Pr{\!}_a(\text{rejeter} \mathscr{H}_0), \end{align*}\] où \(\Pr_a\) désigne la probabilité d’obtenir un résultat dans la zone de rejet pour une alternative donnée.
Minimalement, la puissance devrait être \(\alpha\) puisqu’on rejette l’hypothèse nulle \(\alpha\) du temps sous le scénario favorable où \(\mathscr{H}_0\) est vraie.
Un intervalle de confiance est une façon alternative de présenter les conclusions d’un test d’hypothèse de niveau \(\alpha\).
L’intervalle de confiance bilatéral de Wald \((1-\alpha)\) pour un paramètre unidimensionnel \(\theta\) est \[\begin{align*} [\widehat{\theta} + \mathfrak{q}_{\alpha/2} \times \mathrm{se}(\widehat{\theta}), \widehat{\theta} +\mathfrak{q}_{1-\alpha/2}\times \mathrm{se}(\widehat{\theta})] \end{align*}\] soit l’estimation ponctuelle plus ou moins une marge d’erreur.
On distingue entre notre objectif (estimand, par exemple la moyenne \(\mu\)), la recette ou formule (estimateur) et la sortie (estimé, une valeur numérique).
Puisque les intrants de l’intervalle de confiance (l’estimateur) sont aléatoires, la sortie l’est également et change d’un échantillon à l’autre. Même si on répète une recette, on n’obtient pas toujours le même résultat.
L’intervalle de confiance de niveau \(1-\alpha\) nous donne la plage des valeurs pour lesquelles on ne peut rejeter \(\mathscr{H}_0\) à niveau \(\alpha\)
Les intervalles de confiance sont exprimés dans les mêmes unités que les données (donc plus interprétables?)
La valeur-p est \(p = \Pr_0(T > t_D)\), où \(T \sim \mathsf{Student}(34)\). À l’aide de R, on obtient \(p=0.0032\), inférieur à \(\alpha=5\)%.
La borne inférieure de l’intervalle unilatéral est \(\overline{D} + \mathsf{se}(\overline{D}) \times \mathfrak{t}_{0.05}\).
L’intervalle de confiance est \([0.131, \infty]\). La différence moyenne postulée, \(0\), n’appartient pas à l’intervalle.
d <- with(distraction, t - c) # différence entre texter et conversation
n <- length(d) # taille de l'échantillon
(moy_d <- mean(d)) # différence moyenne
## [1] 0.313
(errtype_d <- sd(d)/sqrt(n)) # erreur-type de la différence moyenne
## [1] 0.108
(stat <- moy_d/errtype_d) # statistique du test-t
## [1] 2.91
ddl <- n - 1L # degrés de liberté
crit <- qt(p = 0.05, df = ddl) # valeur critique, "q" pour quantiles
(valp <- pt(q = stat, df = ddl, lower.tail = FALSE)) # Pr(T > stat)
## [1] 0.00319
(ic_inf <- moy_d + errtype_d*crit) # borne inférieure de l'intervalle de confiance
## [1] 0.131
La différence moyenne estimée est de \(0.313\) secondes (écart-type de \(0.637\) secondes).
On rejette \(\mathscr{H}_0\): le temps de réaction est significativement plus élevé lorsqu’on texte que lorsqu’on parle au cellulaire en marchant.
Objectifs d’apprentissage
Comment modéliser