Fonction de vraisemblance

Cet article est une ébauche concernant les probabilités et la statistique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

En théorie des probabilités et en statistique, la fonction de vraisemblance (ou plus simplement vraisemblance) est une fonction des paramètres d'un modèle statistique calculée à partir de données observées^[1]^,^[2]. Les fonctions de vraisemblance jouent un rôle clé dans l'inférence statistique fréquentiste, en particulier pour les méthodes statistiques d'estimation de paramètres, en particulier l'estimation par maximum de vraisemblance.

En inférence bayésienne, les paramètres sont eux-mêmes considérés comme des variables aléatoires, et la vraisemblance est utilisée pour calculer la probabilité a posteriori des paramètres via la loi de Bayes.

Définition

Dans le langage courant « vraisemblable » est parfois utilisé comme synonyme de « probable ». En statistique, vraisemblance et probabilité sont des concepts différents mais proches.

Une variable aléatoire représente un phénomène décrit par une loi de probabilité. En général cette loi appartient à une famille de distributions, c'est-à-dire de fonctions mathématiques, dont la forme varie en fonction d'un certain nombre de paramètres. On regroupe ces paramètres dans un vecteur noté $θ$ .

Si on note $x$ une réalisation de la variable aléatoire $X$ , alors la loi de probabilité est une fonction paramétrée par $θ$ associant à $x$ une valeur (densité ou masse selon que la loi est discrète ou continue) :

x\mapsto f(x;\theta )

Étant donnée une observation, les paramètres de la distribution étant connus, la fonction $f$ permet de calculer la probabilité d'une telle observation. La vraisemblance intervient dans le cas inverse : en modélisation statistique, on observe un phénomène aléatoire, mais on ne connaît pas la distribution associée. La fonction de vraisemblance est alors

\theta \mapsto f(x;\theta )

que l'on note généralement ${\mathcal {L}}(\theta ;x)$ (de l'anglais likelihood).

La fonction $f (x; θ)$ est donc une densité de probabilité vue comme une fonction de $x$ , la valeur de $θ$ étant fixée ; et une fonction de vraisemblance vue comme fonction de $θ$ pour $x$ donné.

La vraisemblance n'est pas la probabilité que $θ$ soit la vraie valeur conditionnellement à l'observation $x$ , bien que cette confusion soit fréquente : c'est le sophisme du procureur.

Loi de probabilité discrète

Soit $X$ une variable aléatoire suivant une loi discrète décrite par la fonction de masse $p$ dépendant d'un paramètre $θ$ . La vraisemblance L est une fonction de $θ$ , étant donné une réalisation $x$ de la variable aléatoire $X$ , qui s'écrit alors :

{\mathcal {L}}(\theta ;x)=p_{\theta }(x)=\mathbb {P} _{\theta }(X=x)

.

Loi de probabilité continue

Soit $X$ une variable aléatoire suivant une loi continue décrite par la densité de probabilité $f$ dépendant d'un paramètre $θ$ . La vraisemblance L est une fonction de $θ$ , étant donné une réalisation $x$ de la variable aléatoire $X$ , qui s'écrit alors :

{\mathcal {L}}(\theta |x)=f_{\theta }(x)

.

Log-vraisemblance

On est souvent amené à calculer la vraisemblance d'un paramètre au regard non pas d'une seule observation, mais d'une collection d'observations indépendantes d'une même variable aléatoire $\{x_{1},x_{2},\dots ,x_{n}\}$ , comme on l'a fait dans l'exemple précédent. Dans ce cas, la vraisemblance s'écrit comme le produit des vraisemblances de chaque observation :

{\mathcal {L}}(\theta ;x_{1},x_{2},\dots ,x_{n})=\prod _{i=1}^{n}{\mathcal {L}}(\theta ;x_{i})

.

Dans de nombreux cas, il est plus commode de manipuler le logarithme de la vraisemblance, que l'on appelle fonction log-vraisemblance. En effet, on cherche souvent à atteindre le maximum de vraisemblance. La fonction logarithme étant strictement croissante, la vraisemblance et la log-vraisemblance atteignent leur maximum au même point. De plus la recherche du maximum de vraisemblance nécessite généralement de calculer la dérivée de la vraisemblance, et cela est beaucoup plus simple avec le log-vraisemblance, dans le cas de multiples observations indépendantes, puisque le logarithme du produit des vraisemblances individuelles s'écrit comme la somme des logarithmes des vraisemblances, et qu'il est plus aisé de dériver une somme de termes qu'un produit. En effet, on a :

\log {\mathcal {L}}(\theta ;x_{1},x_{2},\dots ,x_{n})=\sum _{i=1}^{n}\log {\mathcal {L}}(\theta ;x_{i})

.

Vraisemblance relative

Soit ${\hat {\theta }}$ l'estimateur du maximum de vraisemblance pour les paramètres $θ$ d'une distribution ; on peut estimer la plausibilité d'autres valeurs de $θ$ en comparant leur vraisemblance avec celle de ${\hat {\theta }}$ . La vraisemblance relative de $θ$ est définie par le rapport ${\frac {{\mathcal {L}}(\theta ;x)}{{\mathcal {L}}({\hat {\theta }};x)}}$ .

On est souvent amené à donner une plage de paramètres $θ$ pour laquelle la vraisemblance relative est supérieure à une valeur donnée. Par exemple, la plage de vraisemblance à 10 % est

\left\{\theta :{\frac {{\mathcal {L}}(\theta ;x)}{{\mathcal {L}}({\hat {\theta }};x)}}\geq 0{,}1\right\}

.

Plus généralement, la plage de vraisemblance à p % est donnée par l'ensemble

\left\{\theta :{\frac {{\mathcal {L}}(\theta |x)}{{\mathcal {L}}({\hat {\theta }}|x)}}\geq {\frac {p}{100}}\right\}

.

Si $θ$ est un paramètre réel, cette plage de vraisemblance sera généralement un intervalle, que l'on appelle intervalle de vraisemblance. Il existe un parallèle entre le concept d'intervalle de vraisemblance et celui d'intervalle de confiance. Sous certaines conditions, pour un paramètre $θ$ réel, un intervalle de vraisemblance à 14,7 % correspondra à un intervalle de confiance à 95 %.

La vraisemblance relative est également liée au test du rapport de vraisemblance. Le rapport de vraisemblance est le rapport de deux vraisemblances pour deux paramètres quelconques, la vraisemblance relative étant le cas particulier où l'un des deux paramètres correspond au maximum de vraisemblance.

Exemples

Pile ou face

Dans un jeu de pile ou face, on se place du point de vue d'un joueur qui ne sait pas si la pièce est équilibrée ou biaisée vers l'une des deux faces. En lançant plusieurs fois la pièce, la vraisemblance nous permettra de quantifier à quel point les observations nous renseignent sur le fait que la pièce soit ou non équilibrée.

Le modèle statistique du lancer de la pièce est représenté par une variable aléatoire discrète ayant pour valeurs pile ou face et un seul paramètre $p F$ qui mesure à quel point la pièce est équilibrée. Plus précisément, ce paramètre $p F$ correspond à la probabilité d'obtenir face sur un lancer, et peut prendre n'importe quelle valeur comprise entre 0 et 1. Pour une pièce parfaitement équilibrée $p F = 1 / 2$ .

On lance la pièce deux fois de suite et on observe deux fois face (« FF »). En supposant que les lancers sont indépendants et identiquement distribués, la probabilité d'observer l’événement « FF » est

\mathbb {P} (FF;p_{F}={\tfrac {1}{2}})=\left({\tfrac {1}{2}}\right)^{2}={\tfrac {1}{4}}

.

Étant donné l'observation « FF », la vraisemblance de la valeur du paramètre $p F = 1 / 2$ est égale à $1 / 4$ , ce qui s'écrit mathématiquement

{\mathcal {L}}(p_{F}={\tfrac {1}{2}};FF)={\tfrac {1}{4}}

.

Il est en revanche faux d'affirmer que la probabilité que la valeur de $p F$ est égale à $1 / 2$ sachant que la probabilité de « FF a été observé » est de $1 / 4$ . Pour évaluer cette probabilité il faut recourir au théorème de Bayes, qui indique que la probabilité a posteriori est proportionnelle au produit de la vraisemblance et de la probabilité a priori.

Si l'on suppose maintenant que la pièce est truquée et que $p F = 0,3$ , la probabilité d'obtenir deux fois face est égale à

\mathbb {P} (FF;p_{F}=0{,}3)=0{,}3^{2}=0{,}09

.

Pour la même observation (événement « FF ») la vraisemblance que $p F = 0,3$ est donc

{\mathcal {L}}(p_{F}=0{,}3;FF)=0{,}09

.

La vraisemblance nous permet donc de comparer nos deux hypothèses : au vu de FF, il est donc plus vraisemblable que la pièce soit équilibrée plutôt que déséquilibrée en faveur de pile.

Maximum de vraisemblance

On peut alors se demander: si l'on ne connaît pas $p F$ mais qu'on a observé « FF », quelle est la valeur la plus vraisemblable de $p F$ au vu de cette observation ? On est donc amené à chercher le maximum de vraisemblance : si l'on veut modéliser la pièce et que l'on ne dispose que de ces observations, le maximum de vraisemblance est le "meilleur" modèle possible au regard de ce critère.

On a vu plus haut que ${\mathcal {L}}(p_{F};FF)=p_{F}^{2}$ , autrement dit, le maximum est atteint pour $p F = 1$ (n'ayant observé que des "face", il est vraisemblable que la pièce ne donne que des "face").

Fonction de vraisemblance pour un tirage à 12 fois "face" et 8 fois "pile"

Si on réalise plusieurs observations, par exemple 12 fois "face" et 8 fois "pile", on a alors :

{\mathcal {L}}(p_{F};\{12F,8P\})=p{_{F}}^{12}(1-p_{F})^{8}

Cette fonction atteint son maximum en $p F = 0,6$ . Le modèle de la pièce correspondant au maximum de vraisemblance a une probabilité de faire face de 0,6.

Enfin, on peut comparer les courbes (relatives) des vraisemblances dans le cas ci-dessus (en bleu), et dans le cas ou l'on fait deux fois plus d'observations (avec le même rapport entre pile et face), ici 24 pile et 16 face (en orange).

Le maximum est atteint pour la même valeur $p F = 0,6$ mais la courbe est plus resserrée autour de ce maximum: avec plus d'observations, les options plus éloignées de 0,6 deviennent moins vraisemblables ; notre confiance dans cette valeur a augmenté (voir information de Fisher).

Loi Gamma

La loi Gamma est une distribution à deux paramètres, notés $α$ et $β$ . Étant donné une observation $x$ , la vraisemblance s'écrit alors

{\mathcal {L}}(\alpha ,\beta ;x)={\frac {\beta ^{\alpha }}{\Gamma (\alpha )}}x^{\alpha -1}\exp(-\beta x).

La recherche de la valeur de $β$ correspondant au maximum de vraisemblance pour l'observation $x$ peut paraître complexe. En passant au logarithme, le calcul se simplifie

\log {\mathcal {L}}(\alpha ,\beta ;x)=\alpha \log \beta -\log \Gamma (\alpha )+(\alpha -1)\log x-\beta x

.

Pour trouver la valeur de $β$ qui maximise la log-vraisemblance, on calcule sa dérivée partielle par rapport à $β$ :

{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta ;x)}{\partial \beta }}={\frac {\alpha }{\beta }}-x

.

Dans le cas où l'on a plusieurs observations indépendantes $\{x_{1},x_{2},\dots ,x_{n}\}$ , la log-vraisemblance de l'ensemble des observations est la somme des log-vraisemblances individuelles, et la dérivée partielle de l'ensemble sera la somme des dérivées partielles individuelles, soit :

{\frac {\partial \log {\mathcal {L}}(\alpha ,\beta ;x_{1},x_{2},\dots ,x_{n})}{\partial \beta }}=\sum _{i=1}^{n}{\frac {\alpha }{\beta }}-x_{i}=n{\frac {\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}

.

Le maximum est atteint quand cette dérivée partielle est nulle. On résout donc l'équation

n{\frac {\alpha }{\beta }}-\sum _{i=1}^{n}x_{i}=0

qui a pour solution

{\hat {\beta }}=\alpha {\frac {n}{\sum _{i=1}^{n}x_{i}}}={\frac {\alpha }{\bar {x}}}

où ${\hat {\beta }}$ est l'estimateur du maximum de vraisemblance et ${\textstyle {\bar {x}}={\tfrac {1}{n}}\sum _{i=1}^{n}x_{i}}$ est la moyenne empirique des observations.

Références

↑ (en) R. A. Fisher et Edward John Russell, « On the mathematical foundations of theoretical statistics », Philosophical Transactions of the Royal Society A, vol. 222,‎ 1922, p. 309–368 (lire en ligne)
↑ Yadolah Dodge, Statistique : dictionnaire encyclopédique., Paris/Berlin/Heidelberg etc., Springer, 635 p. (ISBN 978-2-287-72093-2), Maximum de vraisemblance, p.328

Voir aussi

Articles connexes

Lien externe

sciences.ch

Portail des probabilités et de la statistique

[1] (en) R. A. Fisher et Edward John Russell, « On the mathematical foundations of theoretical statistics », Philosophical Transactions of the Royal Society A, vol. 222,‎ 1922, p. 309–368 (lire en ligne)

[2] Yadolah Dodge, Statistique : dictionnaire encyclopédique., Paris/Berlin/Heidelberg etc., Springer, 635 p. (ISBN 978-2-287-72093-2), Maximum de vraisemblance, p.328

[1]

[2]