3 Inférence basée sur la vraisemblance
Ce chapitre traite de modélisation statistique et d’inférence basée sur la vraisemblance, la méthodologie la plus populaire dans le monde de la statistique.
Objectifs d’apprentissage
- Apprendre la terminologie associée à l’inférence basée sur la vraisemblance.
- Dériver des expressions explicites pour l’estimateur du maximum de vraisemblance de modèles simples.
- En utilisant l’optimisation numérique, obtenir des estimations de paramètres et leurs erreurs-type en utilisant le maximum de vraisemblance.
- Utiliser les propriétés de la vraisemblance pour les grands échantillons afin d’obtenir des intervalles de confiance et les propriétés des tests statistiques.
- Être capable d’utiliser les critères d’information pour la sélection des modèles.
Un modèle statistique spécifie typiquement un mécanisme de génération de données. Nous postulons ainsi que les données ont été générées à partir d’une loi de probabilité dotée de
Nous considérons un exemple pour motiver les concepts présentés ci-après. Supposons qu’on s’intéresse au temps qu’un usager doit attendre à la station Université de Montréal s’il arrive à 17h59 précise tous les jours de la semaine, juste à temps pour la prochaine rame de métro. La base de données attente
consistent le temps en secondes avant que la prochaine rame ne quitte la station. Les données ont été collectées pendant trois mois et peuvent être traitées comme un échantillon indépendant. Le panneau gauche de Figure 3.1 montre un histogramme des observations
Exemple 3.1 (Modèle exponentiel pour les temps d’attente) Pour modéliser les temps d’attente, on considère une loi exponentielle avec paramètre d’échelle
Pour estimer le paramètre d’échelle
3.1 Estimation par maximum de vraisemblance
Pour chaque valeur du paramètre
Définition 3.1 (Vraisemblance) La vraisemblance
Si ces dernières sont indépendantes, la densité conjointe se factorise en un produit de densité unidimensionnelle pour chaque observation et la vraisemblance devient alors
Exemple 3.2 (Données dépendantes) La fonction de densité conjointe ne se factorise que pour les données indépendantes, mais une décomposition séquentielle alternative peut s’avérer utile. Par exemple, nous pouvons écrire la densité conjointe
Définition 3.2 (Estimateur du maximum de vraisemblance) L’estimateur du maximum de vraisemblance (EMV)
Si nous supposons que notre modèle est correct, nous nous attendons à observer ce qui a été réalisé, et nous trouvons donc le vecteur de paramètres qui rend l’échantillon le plus susceptible d’avoir été généré par notre modèle. Plusieurs propriétés de l’estimateur du maximum de vraisemblance le rendent intéressant pour l’inférence. L’estimateur du maximum de vraisemblance est efficace, c’est-à-dire qu’il présente l’erreur quadratique moyenne asymptotique la plus faible de tous les estimateurs. L’estimateur du maximum de vraisemblance est également convergent, c’est-à-dire qu’il approche de la vraie valeur du paramètre inconnu à mesure que la taille de l’échantillon augmente (asymptotiquement sans biais).
La plupart du temps, nous allons recourir à des routines d’optimisation numérique pour trouver la valeur de l’estimation du maximum de vraisemblance, ou parfois dériver des expressions explicites pour l’estimateur, à partir de la log-vraisemblance. Le panneau de droite de Figure 3.1 montre la log-vraisemblance exponentielle, qui atteint un maximum à
Exemple 3.3 (Calcul de l’estimateur du maximum de vraisemblance d’une loi exponentielle) La Figure 3.1 révèle que la log-vraisemblance exponentielle est unimodale. Nous pouvons utiliser le calcul différentiel pour obtenir une expression explicite pour
Exemple 3.4 (Échantillons de loi normale) Supposons que nous disposions de
Le fait que l’estimateur de la moyenne théorique
Exemple 3.5 (Moindres carrés ordinaires) Le cas des données normalement distribuées est intimement lié à la régression linéaire et aux moindres carrés ordinaires: en supposant la normalité des erreurs, les estimateurs des moindres carrés de
Le modèle de régression linéaire spécifie que
Proposition 3.1 (Invariance des estimateurs du maximum de vraisemblance) Si
La propriété d’invariance explique l’utilisation répandue de l’estimation du maximum de vraisemblance. Par exemple, après avoir estimé le paramètre pexp
dans R,
# Note: la paramétrisation usuelle dans R pour la loi exponentielle
# est en terme d'intensité (réciproque du paramètre d'échelle)
pexp(q = 60, rate = 1/mean(attente), lower.tail = FALSE)
#> [1] 0.126
Un autre intérêt de la propriété d’invariance est la possibilité de calculer l’EMV dans la paramétrisation la plus simple, ce qui est pratique si le support est contraint. Si
Définition 3.3 (Score et information) Soit
L’information observée est la hessienne (matrice de dérivée deuxième) du négatif de la log-vraisemblance
Exemple 3.6 (Information pour le modèle exponentiel) L’information de Fisher et observée pour un échantillon aléatoire simple du modèle exponentiel,
Le modèle exponentiel peut s’avérer restrictif pour adéquatement capturer nos données, c’est pourquoi nous considérons une loi de Weibull comme généralisation.
Définition 3.4 (Loi de Weibull) La fonction de répartition d’une variable aléatoire de loi Weibull, de paramètres d’échelle
Exemple 3.7 (Score et information d’une loi Weibull) La log-vraisemblance d’un échantillon aléatoire simple de taille
Proposition 3.2 (Optimisation basée sur le gradient) Pour obtenir l’estimateur du maximum de vraisemblance, nous trouverons généralement la valeur du vecteur
Nous pouvons utiliser une variante de l’algorithme de Newton–Raphson si la vraisemblance est trois fois différentiable et si l’estimateur du maximum de vraisemblance ne se trouve pas sur la frontière de l’espace des paramètres. Si nous considérons une valeur initiale glm
de R.
Exemple 3.8 (Estimateurs du maximum de vraisemblance d’un échantillon Weibull) Nous nous tournons vers l’optimisation numérique pour obtenir l’estimation du maximum de vraisemblance de la loi de Weibull, en l’absence formule explicite pour les EMV. À cette fin, il faut écrire une fonction qui encodent la log-vraisemblance, ici la somme des contributions de la log-densité. La fonction nll_weibull
ci-dessous prend comme premier argument le vecteur de paramètres, pars
, et renvoie la valeur négative de la log-vraisemblance que nous souhaitons minimiser4. Nous codons également le gradient, bien que nous puissions recourir à la différenciation numérique. Nous utilisons ensuite optim
, la routine d’optimisation par défaut de R, pour minimiser nll_weibull
. La fonction renvoie une liste contenant un code de convergence (0
indiquant la convergence), les EMV dans par
, la log-vraisemblance
Code
# Charger les données
data(attente, package = "hecstatmod")
# Négatif de la log vraisemblance pour un échantillon Weibull
<- function(pars, y) {
nll_weibull # Gérer le cas de paramètres négatifs (impossible)
if (isTRUE(any(pars <= 0))) {
return(1e10) # retourner une valeur large finie
# (pour éviter les messages d'avertissement)
}- sum(dweibull(
x = y,
scale = pars[1],
shape = pars[2],
log = TRUE
))
}# Gradient du négatif de la log vraisemblance Weibull
<- function(pars, y) {
gr_nll_weibull <- pars[1]
scale <- pars[2]
shape <- length(y)
n <- c(
grad_ll scale = -n * shape / scale + shape * scale^(-shape - 1) * sum(y^shape),
shape = n / shape - n * log(scale) + sum(log(y)) -
sum(log(y / scale) * (y / scale)^shape)
)return(-grad_ll)
}
# Utiliser les EMV du modèle exponentiel pour l'initialisation
<- c(mean(attente), 1)
valinit # Vérifier préalablement que le gradient est correct!
# La commande retourne TRUE si la dérivée numérique
# égale sa version analytique à tolérance donnée
isTRUE(all.equal(
::grad(nll_weibull, x = valinit, y = attente),
numDerivgr_nll_weibull(pars = valinit, y = attente),
check.attributes = FALSE
))#> [1] TRUE
# Optimisation numérique avec optim
<- optim(
opt_weibull par = valinit,
# valeurs initiales
fn = nll_weibull,
# passer la fonction à optimiser, son premier argument
# doit être le vecteur de paramètres
gr = gr_nll_weibull,
# gradient (optionnel)
method = "BFGS",
# algorithme BFGS est basé sur le gradient,
# une alternative robuste est "Nelder"
y = attente,
# vecteur d'observations passées en argument additionnel à "fn"
hessian = TRUE
# retourner la matrice de dérivée secondes évaluée aux EMV
) # Alternative avec un Newton
# nlm(f = nll_weibull, p = valinit, hessian = TRUE, y = attente)
# Estimations du maximum de vraisemblance
<- opt_weibull$par)
(mle_weibull #> [1] 32.6 2.6
# Vérifier la convergence numérique à l'aide du gradient
gr_nll_weibull(mle_weibull, y = attente)
#> scale shape
#> 0.0000142 0.0001136
# Vérifier que la hessienne est positive définite
# Toutes les valeurs propres sont positives
# Si oui, on a trouvé un maximum et la matrice est invertible
isTRUE(all(eigen(opt_weibull$hessian)$values > 0))
#> [1] TRUE
3.2 Loi d’échantillonnage
La loi d’échantillonnage d’un estimateur
Supposons que nous disposons d’un échantillon aléatoire simple, de sorte que la log-vraisemblance est constitutée d’une somme de
On peut utiliser ce résultat pour obtenir une approximation à la loi d’échantillonnage des estimateurs du maximum de vraisemblance de
Au fur et à mesure que la taille de l’échantillon augmente, l’estimateur du maximum de vraisemblance
Exemple 3.9 (Matrice de covariance et erreurs-type pour le modèle de Weibull) Nous utilisons la sortie de notre procédure d’optimisation pour obtenir la matrice d’information observée et les erreurs-type pour les paramètres du modèle de Weibull. Ces dernières sont simplement la racine carrée des entrées diagonales de l’information observée évaluée aux EMV,
# La hessienne du négatif de la log vraisemblance, évaluée aux EMV
# est la matrice d'information observée
<- opt_weibull$hessian
obsinfo_weibull <- solve(obsinfo_weibull)
vmat_weibull # Erreurs-type
<- sqrt(diag(vmat_weibull)) se_weibull
Une fois que l’on a les estimations du maximum de vraisemblance et les erreurs-type, on peut dériver des intervalles de confiance ponctuels de Wald pour les paramètres de
Proposition 3.3 (Normalité asymptotique et transformations) Le résultat de normalité asymptotique peut être utilisé pour dériver les erreurs standard pour d’autres quantités d’intérêt. Si
Exemple 3.10 (Probabilité d’attente pour un modèle exponentiel.) Considérons les données sur le temps d’attente dans le métro et la probabilité d’attendre plus d’une minute,
# Exemple de dérivation des erreurs-type pour une
# transformation des paramètres
# Ici, on calcule Pr(Y>60) selon le modèle exponentiel
<- mean(attente)
lambda_hat # Définir la fonction d'intérêt
<- exp(-60 / lambda_hat)
phi_hat # jacobien de la transformation
<- function(lambda) {
dphi 60 * exp(-60 / lambda) / (lambda^2)
}# variance du paramètre exponentiel
<- lambda_hat^2 / length(attente)
V_lambda # variance de Pr(Y>60) via la méthode delta
<- dphi(lambda_hat)^2 * V_lambda
V_phi # extraire et imprimer les erreurs-type
<- sqrt(V_phi))
(se_phi #> [1] 0.0331
3.3 Tests dérivés de la vraisemblance
Nous considérons une hypothèse nulle
L’hypothèse nulle
- les statistiques des tests du rapport de vraisemblance, notées
qui mesurent la différence de log vraisemblance (distance verticale) entre et - les statistiques des tests de Wald, notées
qui considèrent la distance horizontale normalisée entre et - les statistiques des tests de score de Rao, notées
qui examinent le gradient repondéré de évaluée uniquement à .
Les trois principales classes de statistiques permettant de tester une hypothèse nulle simple
Asymptotiquement, toutes les statistiques de test sont équivalentes (dans le sens où elles conduisent aux mêmes conclusions sur
Remarque 3.1 (Procédures de tests et formes quadratiques). D’où provient cette loi
Si on postule
Si
Sous cette forme, si l’hypothèse nulle
La statistique du test du rapport de vraisemblance est normalement la plus puissante des trois tests (et donc préférable selon ce critère); la statistique est aussi invariante aux reparamétrages. La statistique de score

La statistique de Wald
Exemple 3.11 (Test de Wald pour comparer les modèles Weibull et exponentiel) Nous pouvons tester si la loi exponentielle est une simplification adéquate de la loi de Weibull en imposant la restriction
# Calculer la statistique de Wald
<- (mle_weibull[2] - 1)/se_weibull[2]
wald_exp # Calculer la valeur-p
pchisq(wald_exp^2, df = 1, lower.tail = FALSE)
#> [1] 3.61e-10
# valeur-p inférieure à 5%, rejet de l'hypothèse nulle
# Intervalles de confiance de niveau 95%
2] + qnorm(c(0.025, 0.975))*se_weibull[2]
mle_weibull[#> [1] 2.1 3.1
# La valeur 1 n'appartient pas à l'intervalle, rejeter H0
Nous rejetons l’hypothèse nulle, ce qui signifie que le sous-modèle exponentiel n’est pas une simplification adéquate du modèle de Weibull
Nous pouvons également vérifier l’ajustement des deux modèles à l’aide d’un diagramme quantile-quantile (cf. Définition 1.14). Il ressort de Figure 3.5 que le modèle exponentiel surestime les temps d’attente les plus importants, dont la dispersion dans l’échantillon est inférieure à celle impliquée par le modèle. En revanche, la ligne droite presque parfaite pour le modèle de Weibull dans le panneau de droite de Figure 3.5 suggère que l’ajustement du modèle est adéquat.
Remarque 3.2 (Absence d’invariance des intervalles de confiance de Wald). Puisque les erreurs-types de paramètres dépendent de la paramétrisation, les intervalles de confiance de Wald ne sont pas invariants à ces transformations. Par exemple, si on veut des intervalles de confiance pour une fonction
Par exemple, considérons le modèle exponentiel. Nous pouvons inverser la statistique du test de Wald pour obtenir un intervalle de confiance symétrique à 95% pour
Le test du rapport de vraisemblance est invariant par rapport aux reparamétrages préservant les intérêts, de sorte que la statistique de test pour
# Log vraisemblance exponentielle
<- function(lambda) {
ll_exp sum(dexp(attente, rate = 1 / lambda, log = TRUE))
}# EMV du paramètre d'échelle
<- mean(attente)
lambda_hat # Recherche des zéros de la fonction pour obtenir
# les limites des intervalles de confiance
<- uniroot(
lrt_lb # borne inférieure, en utilisant l'EMV
f = function(r) {
2 * (ll_exp(lambda_hat) - ll_exp(r)) - qchisq(0.95, 1)
},interval = c(0.5 * min(attente), lambda_hat)
$root
)<- uniroot(
lrt_ub # borne supérieure
f = function(r) {
2 * (ll_exp(lambda_hat) - ll_exp(r)) - qchisq(0.95, 1)
},interval = c(lambda_hat, 2 * max(attente))
$root )
L’intervalle de confiance à 95% de la statistique du rapport de vraisemblance pour
3.4 Vraisemblance profilée
Parfois, nous pouvons vouloir effectuer des tests d’hypothèse ou dériver des intervalles de confiance pour un sous-ensemble spécifique des paramètres du modèle, ou une transformation de ces derniers. Dans ce cas, l’hypothèse nulle ne restreint qu’une partie de l’espace et les autres paramètres, dits de nuisance, ne sont pas spécifiés — la question est alors de savoir quelles valeurs utiliser pour la comparaison avec le modèle complet. Il s’avère que les valeurs qui maximisent la log-vraisemblance contrainte sont celles que l’on doit utiliser pour le test, et la fonction particulière dans laquelle ces paramètres de nuisance sont intégrés est appelée vraisemblance profilée.
Définition 3.5 (Log-vraisemblance profilée) Soit un modèle paramétrique avec log-vraisemblance
La log-vraisemblance profilée
Exemple 3.12 (Log-vraisemblance profilée pour le paramètre de forme d’une loi Weibull) Considérons le paramètre de forme
# EMV conditionnels de lambda pour alpha donné
<- function(alpha, y = attente) {
lambda_alpha mean(y^alpha))^(1 / alpha)
(
}# Log vraisemblance profilée pour alpha
<- function(par, y = attente) {
prof_alpha_weibull sapply(par, function(a) {
nll_weibull(pars = c(lambda_alpha(a), a), y = y)
}) }
Exemple 3.13 (Tests de rapport de vraisemblance et du score pour comparer modèles exponentiels et Weibull) On peut procéder pour le calcul du test du score, mais l’entrée pour le paramètre d’échelle du vecteur de score
Code
## Test du score
# Matrice de Fisher pour échantillon de taille 1
<- function(echelle, forme){
info_weib <- forme*((forme + 1) - 1)/(echelle^2)
i11 <- -(1+digamma(1))/echelle
i12 <- (1+digamma(1)^2+2*digamma(1)+pi^2/6)/(forme^2)
i22 matrix(c(i11, i12, i12, i22), nrow = 2, ncol = 2)
}# Statistique du score
<- function(echelle, forme, xdat){
score_stat <- -gr_nll_weibull(c(echelle, forme), y = xdat)
score_w <- length(xdat)*info_weib(echelle, forme)
finfo_w as.numeric(t(score_w) %*% solve(finfo_w) %*% score_w)
# équivalent à score_w[2]^2 * solve(finfo_w)[2,2]
}<- score_stat(echelle = mean(attente), forme = 1, xdat = attente)
S <- pchisq(S, df = 1, lower.tail = FALSE)
valp_score
## Statistique du rapport de vraisemblance
<- function(xdat, echelle, forme){
ll_weib sum(dweibull(x = xdat, scale = echelle, shape = forme, log = TRUE))
}<- ll_weib(xdat = attente, echelle = mle_weibull[1], forme = mle_weibull[2])
ll1 <- ll_weib(xdat = attente, echelle = mean(attente), forme = 1)
ll0 <- 2*(ll1-ll0)
lrt <- pchisq(lrt, df = 1, lower.tail = FALSE) valp_lrt
Bien que les statistiques soient asymptotiquement équivalentes et se comportent toutes deux comme une variable khi-deux à nu degré de liberté, leurs valeurs numériques diffèrent: 60.39 pour le test de rapport de vraisemblance profilée, vs 24.86 pour le test du score. Les deux statistiques indiquent sans ambiguïté un départ du modèle exponentiel.
Exemple 3.14 (Log-vraisemblance profilée pour l’espérance d’une loi Weibull) Nous pouvons également utiliser l’optimisation numérique pour calculer la log-vraisemblance profilée d’une fonction des paramètres. Supposons que nous soyons intéressés par le temps moyen d’attente théorique. Selon le modèle Weibull, cette valeur est
Pour obtenir les intervalles de confiance d’un paramètre scalaire, il existe une astuce qui permet de s’en tirer avec une évaluation sommaire, pour autant que la log-vraisemblance profilée soit relativement lisse. Nous calculons la racine directionnelle du rapport de vraisemblance,
Code
# Calcul des EMV pour l'espérance par substitution
<- mle_weibull[1]*gamma(1+1/mle_weibull[2])
mu_hat # Créer une fonction pour le profil
<- function(mu){
prof_weibull_mu # Pour chaque valeur de mu
<- function(mu){
alpha_mu # Trouver l'estimaté optimal de mu (par recherche linéaire)
# pour chaque valeur de mu
<- optimize(f = function(alpha, mu){
opt # minimiser le négatif de la log vraisemblance
nll_weibull(c(mu/gamma(1+1/alpha), alpha), y = attente)},
mu = mu,
interval = c(0.1,10) #région de la recherche
)# Retourner la valeur du négatif log vraisemblance et alpha_mu
return(c(nll = opt$objective, alpha = opt$minimum))
}# Crée une base de donnée avec mu et les autres paramètres
data.frame(mu = mu, t(sapply(mu, function(m){alpha_mu(m)})))
}# Créer une base de donnée avec la vraisemblance profilée
<- prof_weibull_mu(seq(22, 35, length.out = 101L))
prof # Calculer la racine directionnelle de R, disons r
$r <- sign(prof$mu - mu_hat)*sqrt(2*(prof$nll - opt_weibull$value))
prof
# Truc: ajuster un spline cubique pour obtenir les prédictions de mu en fonction de r
# et utiliser ce modèle pour prédire les valeurs auxquelles la
# courbe intersecte les quantiles de la loi normale standard
<- stats::smooth.spline(x = cbind(prof$r, prof$mu), cv = FALSE)
fit.r <- predict(fit.r, qnorm(c(0.025, 0.975)))$y
pr # Tracer la racine directionnelle de log vraisemblance -
# Si le tracé est linéaire, cela indique que la vraisemblance
# profilée est quadratique (normale)
<- ggplot(data = prof,
g1 mapping = aes(x = mu, y = r)) +
geom_abline(intercept = 0, slope = 1) +
geom_line() +
geom_hline(yintercept = qnorm(c(0.025, 0.975)),
linetype = "dashed") +
labs(x = expression(paste("espérance ", mu)),
y = "racine directionnelle de vraisemblance")
# Créer un graphique de la log vraisemblance profilée
<- ggplot(data = prof,
g2 mapping = aes(x = mu, y = opt_weibull$value - nll)) +
geom_line() +
geom_hline(yintercept = -qchisq(c(0.95), df = 1)/2,
linetype = "dashed") +
geom_vline(linetype = "dotted",
xintercept = pr) +
labs(x = expression(paste("espérance ", mu)),
y = "log vraisemblance profilée")
+ g2 g1
L’estimateur du maximum de vraisemblance du profil se comporte comme une vraisemblance normale pour la plupart des quantités d’intérêt et nous pouvons dériver des statistiques de test et des intervalles de confiance de la manière habituelle. Un exemple célèbre de profil de vraisemblance est la fonction de risque proportionnel de Cox couvert dans le chapitre 7.
3.5 Critères d’information
La vraisemblance peut également servir d’élément de base pour la comparaison des modèles : plus
Les critères d’information combinent la log vraisemblance, qui mesure l’adéquation du modèle aux données, avec une pénalité pour le nombre de paramètres. Les plus fréquents sont les critères d’information d’Akaike (AIC) et bayésien (BIC),
Notez que les critères d’information ne constituent pas des tests d’hypothèse formels sur les paramètres, mais qu’ils peuvent être utilisés pour comparer des modèles non emboîtés (mais ils sont alors très imprécis!)
Exemple 3.15 (Comparaison de modèles non-emboîtés pour les temps d’attente) On a considéré deux familles de lois paramétriques, soit exponentielle et Weibull, pour les temps d’attente. D’autres lois pour des données continues et positives incluent la loi lognormale et la loi gamma.
On peut ajuster ces modèles par maximum de vraisemblance à l’aide de la routine fitdistr
du paquet MASS
. Tous les modèles, à l’exception du modèle exponentiel, ont deux paramètres et donc les mêmes pénalités pour l’AIC et le BIC. Le modèle Weibull a les plus petites valeurs des critères d’information, et un diagramme quantile-quantile (omis) indique que les observations les plus grandes sont mieux capturées qu’avec une loi gamma.
<- MASS::fitdistr(x = attente, densfun = "exponential")
mod0 <- MASS::fitdistr(x = attente, densfun = "gamma")
mod1 <- MASS::fitdistr(x = attente, densfun = "weibull")
mod2 <- MASS::fitdistr(x = attente, densfun = "lognormal")
mod3 c("exp" = AIC(mod0),
"gamma" = AIC(mod1),
"weibull" = AIC(mod2),
"lognormal" = AIC(mod3))
#> exp gamma weibull lognormal
#> 543 488 485 496
Ces outils fonctionnent sous des conditions de régularité et les critères d’information estimés sont assez bruyants, de sorte que les comparaisons pour les modèles non emboîtés sont hasardeuses bien que populaires. Si nous voulons comparer la vraisemblance de différents modèles de probabilité, nous devons nous assurer qu’ils incluent une constante de normalisation5. Le
Remarque 3.3 (Transformation de variables). Une mise en garde s’impose: s’il est possible de comparer des modèles de régression non emboîtés à l’aide de critères d’information, ceux-ci ne peuvent être utilisés que lorsque la variable de réponse est la même. Pour démontrer ce point, on ajuste une loi normale au logarithme des temps d’attente, équivalent au modèle lognormal mod3
de l’Exemple 3.15.
<- MASS::fitdistr(x = log(attente), densfun = "normal")
mod4 # En raison de la transformation,
# la log vraisemblance est différente
logLik(mod3) - logLik(mod4)
#> 'log Lik.' -202 (df=2)
# Le jacobien de la transformation est (d/dy log(y) = 1/y)
# et donc on doit ajouter -log(y) de contribution à chaque obs.
sum(-log(attente))
#> [1] -202
Ainsi, on ne peut pas comparer un modèle pour
Autre mise en garde: les logiciels omettent souvent les constantes de normalisation (par exemple, le
Si
et sont des variables aléatoires indépendantes, leur probabilité conjointe est le produit des probabilités des événements individuels, La même factorisation tient pour la fonction de densité ou de masse, lesquelles sont les dérivées de la fonction de répartition.↩︎Puisque dans la plupart des cas on a un produit de densités, prendre le logarithme transforme un produit de termes potentiellement petits en une somme de log densités, ce qui est plus facile côté dérivation et plus stable du point de vue du calcul numérique.↩︎
Par exemple, en utilisant une calculatrice symbolique.↩︎
La plupart des algorithmes d’optimisation minimisent les fonctions par rapport à leurs arguments, nous minimisons donc la log-vraisemblance négative, ce qui équivaut à maximiser la log-vraisemblance↩︎
Les logiciels enlèvent parfois les termes ou constantes qui ne sont pas des fonctions des paramètres.↩︎