Introduction à la modélisation statistique bayésienne

Un cours en R et Stan avec brms

Ladislas Nalborczyk (CNRS, LPL, Aix-Marseille Univ)

Préface 👋 👋

Ce cours est grandement inspiré des livres suivants :

  • McElreath, R. (2016, 2020). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. CRC Press.

  • Kurz, S. (2019). Statistical Rethinking with brms, ggplot2, and the tidyverse. Available online.

  • Kruschke, J. K. (2015). Doing Bayesian Data Analysis, Second Edition: A Tutorial with R, JAGS, and Stan. Academic Press / Elsevier.

  • Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2013). Bayesian Data Analysis, third edition. London: CRC Press.

  • Lambert, B. (2018). A Student’s Guide to Bayesian Statistics. SAGE Publications Ltd.

  • Noël, Y. (2015). Psychologie Statistique. EDP Sciences.

  • Nicenboim, B., Schad, D., & Vasishth, S. (2021). An Introduction to Bayesian Data Analysis for Cognitive Science. Available online.

Le code et les slides seront disponibles juste avant chaque séance sur le site de la formation : https://lnalborczyk.github.io/IMSB2026/.

Objectifs

Objectifs généraux :

  • Comprendre les concepts fondamentaux de la statistique bayésienne.
  • Être capable de comprendre des articles décrivant des analyses bayésiennes.
  • Bonus : Réaliser que l’approche bayésienne est plus intuitive que l’approche fréquentiste.

Objectifs pratiques :

  • Être capable de réaliser une analyse complète (i.e., identification du modèle approprié, écriture du modèle mathématique, implémentation en R, interprétation et report des résultats) d’un jeu de données simple.

Planning

Cours n°01 : Introduction à l’inférence bayésienne
Cours n°02 : Modèle Beta-Binomial
Cours n°03 : Introduction à brms, modèle de régression linéaire
Cours n°04 : Modèle de régression linéaire (suite)
Cours n°05 : Markov Chain Monte Carlo
Cours n°06 : Modèle linéaire généralisé
Cours n°07 : Comparaison de modèles
Cours n°08 : Modèles multi-niveaux (généralisés)
Cours n°09 : Examen final

\[\newcommand\given[1][]{\:#1\vert\:}\]

Interprétations probabilistes

Quelle est la probabilité…

  • D’obtenir un chiffre pair sur un lancer de dé ?

  • Que j’apprenne quelque chose pendant cette formation ?

Est-ce qu’il s’agit, pour chaque exemple, de la même sorte de probabilité ?


Interprétation classique (ou théorique)

\[ \Pr(\text{pair}) = \frac{\text{nombre de cas favorables}}{\text{nombre de cas possibles}} = \frac{3}{6} = \frac{1}{2} \]

Problème : cette définition est uniquement applicable aux situations dans lesquelles il n’y a qu’un nombre fini de résultats possibles équiprobables

Par exemple, quelle est la probabilité qu’il pleuve demain ?

\[\Pr(\text{pluie}) = \frac{\text{pluie}}{ \{ \text{pluie, non-pluie} \} } = \frac{1}{2}\]

Interprétation fréquentiste (ou empirique)

\[\Pr(x) = \lim_{n_{t} \to \infty}\frac{n_{x}}{n_{t}}\]

\(n_{x}\) est le nombre d’occurrences de l’évènement \(x\) et \(n_{t}\) le nombre total d’essais. L’interprétation fréquentiste postule que, à long-terme (i.e., quand le nombre d’essais s’approche de l’infini), la fréquence relative va converger exactement vers ce qu’on appelle “probabilité”.

Conséquence : le concept de probabilité s’applique uniquement à des ensembles d’évènements, et non à des évènements individuels.

Interprétation fréquentiste (ou empirique)

library(tidyverse)

sample(x = c(0, 1), size = 500, prob = c(0.5, 0.5), replace = TRUE) %>%
        data.frame() %>%
        mutate(x = seq_along(.), y = cummean(.) ) %>%
        ggplot(aes(x = x, y = y) ) +
        geom_line(lwd = 1) +
        geom_hline(yintercept = 0.5, lty = 3) +
        labs(x = "Nombre de lancers", y = "Proportion de faces") +
        ylim(0, 1)

Limites de l’interprétation fréquentiste…

Quelle classe de référence ? Quelle est la probabilité que je vive jusqu’à 80 ans ? En tant qu’homme ? En tant que Français ?

Quid des évènements qui ne peuvent pas se répéter ? Quelle est la probabilité que j’apprenne quelque chose pendant cette formation ?

À partir de combien de lancers (d’une pièce par exemple) a-t-on une bonne approximation de la probabilité ? Une classe finie d’évènements de taille \(n\) ne peut produire que des fréquences relatives de précision \(1/n\)

Interprétation propensionniste

Les propriétés fréquentistes (i.e., à long terme) des objets (e.g., une pièce) seraient provoquées par des propriétés physiques intrinsèques aux objets. Par exemple, une pièce biaisée va engendrer une fréquence relative (et donc une probabilité) biaisée en raison de ses propriétés physiques. Pour les propensionnistes, les probabilités représentent ces caractéristiques intrinsèques, ces propensions à générer certaines fréquences relatives, et non les fréquences relatives en elles-mêmes.

Conséquence : ces propriétés sont les propriétés d’évènements individuels… et non de séquences ! L’interprétation propensionniste nous permet donc de parler de la probabilité d’évènements uniques.

Interprétation logique


Il y a 10 étudiants dans cette salle
9 portent un t-shirt vert
1 porte un t-shirt rouge
Une personne est tirée au sort…

Conclusion n°1 : l’étudiant tiré au sort porte un t-shirt ✔

Conclusion n°2 : l’étudiant tiré au sort porte un t-shirt vert

Conclusion n°3 : l’étudiant tiré au sort porte un t-shirt rouge

Interprétation logique

L’interprétation logique du concept de probabilité essaye de généraliser la logique (vrai / faux) au monde probabiliste. La probabilité représente donc le degré de support logique qu’une conclusion peut avoir, relativement à un ensemble de prémisses (Carnap, 1971; Keynes, 1921).

Conséquence : toute probabilité est conditionnelle.

Interprétation bayésienne

La probabilité est une mesure du degré d’incertitude. Un évènement certain aura donc une probabilité de 1 et un évènement impossible une probabilité de 0.

So to assign equal probabilities to two events is not in any way an assertion that they must occur equally often in any random experiment […], it is only a formal way of saying I don’t know (Jaynes, 1986).

Pour parler de probabilités, dans ce cadre, nous n’avons plus besoin de nous référer à la limite d’occurrence d’un évènement (fréquence).

Interprétations probabilistes

  • Interprétation classique (Laplace, Bernouilli, Leibniz)
  • Interprétation fréquentiste (Venn, Reichenbach, von Mises)
  • Interprétation propensionniste (Popper, Miller)
  • Interprétation logique (Keynes, Carnap)
  • Interprétation bayésienne (Jeffreys, de Finetti, Savage)

Voir plus de détails sur la Stanford Encyclopedia of Philosophy.

Interprétations probabilistes - résumé


Probabilité épistémique

Toute probabilité est conditionnelle à de l’information disponible (e.g., prémisses ou données). La probabilité est utilisée comme moyen de quantifier l’incertitude.

Interprétation logique, bayésienne.

Probabilité physique

Les probabilités dépendent d’un état du monde, de caractéristiques physiques, elles sont indépendantes de l’information disponible (ou de l’incertitude).

Interprétation classique, fréquentiste.

Axiomes des probabilités (Kolmogorov, 1933)

Une probabilité est une valeur numérique assignée à un évènement \(A\), compris comme une possibilité appartenant à l’univers \(\Omega\) (l’ensemble de toutes les issues possibles).

Les probabilités se conforment aux axiomes suivants :

  • Non-négativité : \(\Pr(A) \geq 0\)
  • Normalisation : \(\Pr(\Omega) = 1\)
  • Additivité (pour des évènements incompatibles) : \(\Pr(A_{1} \cup A_{2}) = \Pr(A_{1}) + \Pr(A_{2})\)

Le dernier axiome est également connu comme la règle de la somme, et peut se généraliser à des évènements non mutuellement exclusifs : \(\Pr(A_{1} \cup A_{2}) = \Pr(A_{1}) + \Pr(A_{2}) - \Pr(A_{1} \cap A_{2})\).

Règle de la somme et règle du produit

Règle de la somme (pour deux évènements mutuellement exclusifs) : \(\Pr(A_{1} \cup A_{2}) = \Pr(A_{1}) + \Pr(A_{2}) - \Pr(A_{1} \cap A_{2})\).

Pensez à la probabilité d’obtenir un nombre impair lors d’un lancer de dé. Nous pouvons l’écrire sous la forme \(\Pr(x = 1) + \Pr(x = 3) + \Pr(x = 5) = \frac{3}{6}\).

Règle du produit (pour deux évènements indépendants) : \(\Pr(A_{1} \cap A_{2}) = \Pr(A_{1}) \times \Pr(A_{2})\).

Pensez à la probabilité d’obtenir deux 6 consécutifs lors de deux lancers de dé. On peut l’écrire sous la forme \(\Pr(x = 6, y = 6) = \frac{1}{6} \times \frac{1}{6} = \frac{1}{36}\).

Si vous comprenez et retenez ces deux règles, vous maîtrisez déjà la statistique bayésienne !

Probabilité conjointe

Lors du lancer de 2 dés, la probabilité que le dé \(x\) soit égal à 2 et que le dé \(y\) soit égal à 3 est : \(\Pr(x = 2, y = 3) = \Pr(y = 3, x = 2) = \frac{1}{36}\).

De la règle de la somme à la marginalisation

Avec plusieurs variables, la règle de la somme nous indique comment en ignorer une. Par exemple, la probabilité que le premier dé affiche 1 est : \(\Pr(x = 1) = \Pr(x = 1, y \in \{1, 2, 3, 4, 5, 6\}) = \frac{6}{36}\). On parle alors de probabilité marginale, car on peut écrire la probabilité cumulative dans la marge d’un tableau de probabilités conjointes.

De la règle de la somme à la marginalisation

La probabilité que deux dés totalisent 4 est : \(\Pr(x + y = 4) = \frac{3}{36}\).

Probabilité conditionnelle

Quelle est la probabilité que le dé \(x\) ait une certaine valeur sachant que le total est égal à 4 ? Par exemple, la probabilité que le dé \(x\) soit égal à 2 (sachant que le total est 4) : \(\Pr(x = 2 \given x + y = 4) = \frac{1}{3}\). Cette probabilité conditionnelle peut être réécrite : \(\Pr(x = 2 \given x + y = 4) = \frac{\Pr(x = 2, x + y = 4) }{\Pr(x + y = 4) } = \frac{1/36}{3/36} = \frac{1}{3}\).

Confusion of the inverse

Notez que \(\Pr(x \given y)\) n’est pas nécessairement égal – et n’est généralement pas égal – à \(\Pr(y \given x)\). Par exemple : la probabilité de mourir en sachant que vous avez été attaqué par un requin n’est pas la même que la probabilité d’avoir été attaqué par un requin en sachant que vous êtes mort (cf. confusion of the inverse). De la même manière, \(p(\text{données} \given \mathcal{H}_{0}) \neq p(\mathcal{H}_{0} \given \text{données})\).

Dérivation du théorème de Bayes

À partir des axiomes de Kolmogorov, et des définitions des probabilités conjointes, marginales, et conditionnelles, découle la règle du produit (version générale) :

\[p(x,y) = p(x \given y) p(y) = p(y \given x) p(x)\]

\[p(y \given x) p(x) = p(x \given y) p(y)\]

Par exemple, \(\Pr(x = 2, y = \text{pair}) = \dfrac{\frac{3}{36}}{\frac{18}{36}} \times \frac{18}{36} = \dfrac{\frac{3}{36}}{\frac{3}{36}} \times \frac{3}{36} = \frac{3}{18} \times \frac{18}{36} = \frac{3}{6} \times \frac{6}{36} = \frac{3}{36} \approx 0.0833\).

Dérivation du théorème de Bayes

À partir des axiomes de Kolmogorov, et des définitions des probabilités conjointes, marginales, et conditionnelles, découle la règle du produit (version générale) :

\[p(x,y) = p(x \given y) p(y) = p(y \given x) p(x)\]

\[p(y \given x) p(x) = p(x \given y) p(y)\]

Puis, en divisant chaque côté par \(p(x)\) :

\[p(y \given x) = \dfrac{p(x \given y) p(y)}{p(x)}\]

\[p(x \given y) = \dfrac{p(y \given x) p(x)}{p(y)}\]

Si on remplace \(x\) par \(\text{hypothèse}\) et \(y\) par \(\text{données}\) :

\[ \Pr(\text{hypothèse} \given \text{données}) = \frac{\Pr(\text{données} \given \text{hypothèse}) \times \Pr(\text{hypothèse})}{\text{somme des produits}} \]

Exercice - Problème du sac de billes (McElreath, 2020)

Imaginons que nous disposions d’un sac contenant 4 billes. Ces billes peuvent être soit blanches, soit bleues. Nous savons qu’il y a précisément 4 billes, mais nous ne connaissons pas le nombre de billes de chaque couleur.

Nous savons cependant qu’il existe cinq possibilités (que nous considérons comme nos hypothèses) :


🔵

🔵 🔵

🔵 🔵 🔵

🔵 🔵 🔵 🔵

Exercice - Problème du sac de billes (McElreath, 2020)

Le but est de déterminer quelle combinaison serait la plus probable, sachant certaines observations. Imaginons que l’on tire trois billes à la suite, avec remise, et que l’on obtienne la séquence suivante : 🔵 🔵.

Cette séquence représente nos données. À partir de là, quelle inférence peut-on faire sur le contenu du sac ? En d’autres termes, que peut-on dire de la probabilité de chaque hypothèse ?


🔵

🔵 🔵

🔵 🔵 🔵

🔵 🔵 🔵 🔵

Énumérer les possibilités

Hypothèse : 🔵
Données : 🔵

Énumérer les possibilités

Hypothèse : 🔵
Données : 🔵

Énumérer les possibilités

Hypothèse : 🔵
Données : 🔵 🔵

Énumérer les possibilités

Hypothèse : 🔵
Données : 🔵 🔵

Énumérer les possibilités

Sous cette hypothèse, \(3\) chemins (sur \(4^{3} = 64\)) conduisent au résultat obtenu. Qu’en est-il des autres hypothèses ?

Comparer les hypothèses

Au vu des données, l’hypothèse la plus probable est celle qui maximise le nombre de manières possibles d’obtenir les données obtenues.


Hypothèse Façons d’obtenir les données
0 x 4 x 0 = 0
🔵 1 x 3 x 1 = 3
🔵 🔵 2 x 2 x 2 = 8
🔵 🔵 🔵 3 x 1 x 3 = 9
🔵 🔵 🔵 🔵 4 x 0 x 4 = 0

Accumulation d’évidence

Dans le cas précédent, nous avons considéré que toutes les hypothèses étaient équiprobables a priori (suivant le principe d’indifférence). Cependant, on pourrait avoir de l’information a priori, provenant de nos connaissances (des particularités des sacs de billes par exemple) ou de données antérieures.

Imaginons que nous tirions une nouvelle bille du sac, comment incorporer cette nouvelle donnée ?

Accumulation d’évidence

Il suffit d’appliquer la même stratégie que précédemment, et de mettre à jour le dernier compte en le multipliant par ces nouvelles données. Yesterday’s posterior is today’s prior (Lindley, 2000).


Hypothèse Façons de produire 🔵 Compte précédent Nouveau compte
0 0 0 x 0 = 0
🔵 1 3 3 x 1 = 3
🔵 🔵 2 8 8 x 2 = 16
🔵 🔵 🔵 3 9 9 x 3 = 27
🔵 🔵 🔵 🔵 4 0 0 x 4 = 0

Incorporer un prior

Supposons maintenant qu’un employé de l’usine de fabrication des billes nous dise que les billes bleues sont rares… Cet employé nous dit que pour chaque sac contenant 3 billes bleues, ils fabriquent deux sacs en contenant seulement deux, et trois sacs en contenant seulement une. Il nous apprend également que tous les sacs contiennent au moins une bille bleue et une bille blanche…


Hypothèse Compte précédent Prior usine Nouveau compte
0 0 0 x 0 = 0
🔵 3 3 3 x 3 = 9
🔵 🔵 16 2 16 x 2 = 32
🔵 🔵 🔵 27 1 27 x 1 = 27
🔵 🔵 🔵 🔵 0 0 0 x 0 = 0

Des énumérations aux probabilités

La probabilité d’une hypothèse après avoir observé certaines données est proportionnelle au nombre de façons qu’a cette hypothèse de produire les données observées, multiplié par sa probabilité a priori.

\[ \Pr(\text{hypothèse} \given \text{données}) \propto \Pr(\text{données} \given \text{hypothèse}) \times \Pr(\text{hypothèse}) \]

Pour passer des plausibilités aux probabilités, il suffit de standardiser ces plausibilités pour que la somme des plausibilités de toutes les hypothèses possibles soit égale à \(1\).

\[ \Pr(\text{hypothèse} \given \text{données}) = \frac{\Pr(\text{données} \given \text{hypothèse})\times \Pr(\text{hypothèse})}{\text{somme des produits}} \]

Des énumérations aux probabilités

On définit \(p\) comme la proportion de billes bleues dans le sac.


Hypothèse \(p\) Manières de produire les données Probabilité
0 0 0
🔵 0.25 3 0.15
🔵 🔵 0.5 8 0.40
🔵 🔵 🔵 0.75 9 0.45
🔵 🔵 🔵 🔵 1 0 0


ways <- c(0, 3, 8, 9, 0)
ways / sum(ways)
[1] 0.00 0.15 0.40 0.45 0.00

Notations, terminologie

  • \(\theta\) est un paramètre ou vecteur de paramètres (e.g., la proportion de billes bleues).
  • \(\color{orangered}{p(x \given \theta)}\) la probabilité conditionnelle des données \(x\) sachant le paramètre \(\theta\) \(\color{orangered}{[p(x \given \theta = \theta)]}\).
  • \(\color{orangered}{p(x \given \theta)}\) une fois que la valeur de \(x\) est connue, est vue comme la fonction de vraisemblance (likelihood) du paramètre \(\theta\). Attention, il ne s’agit pas d’une distribution de probabilité valide \(\color{orangered}{[p(x = x \given \theta)]}\).
  • \(\color{steelblue}{p(\theta)}\) la probabilité a priori de \(\theta\).
  • \(\color{purple}{p(\theta \given x)}\) la probabilité a posteriori de \(\theta\) (sachant \(x\)).
  • \(\color{green}{p(x)}\) la probabilité marginale de \(x\) (sur \(\theta\)) ou “vraisemblance marginale”, “vraisemblance intégrée”.


\[ \color{purple}{p(\theta \given x)} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{p(x)}} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{\sum\limits_{\theta}p(x \given \theta)p(\theta)}} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{\int\limits_{\theta}p(x \given \theta)p(\theta)\mathrm{d}x}} \propto \color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)} \]

Inférence bayésienne

Dans ce cadre, pour chaque problème, nous allons suivre 3 étapes :

  • Construire le modèle (l’histoire des données): likelihood + prior.
  • Mettre à jour grâce aux données, calculer la probabilité a posteriori.
  • Évaluer le modèle, qualité du “fit”, sensibilité, résumer les résultats, ré-ajuster.

Bayesian inference is really just counting and comparing of possibilities […] in order to make good inference about what actually happened, it helps to consider everything that could have happened (McElreath, 2016).

Un peu de logique

Un peu de logique, quelques syllogismes

Exemple 1

  • Si un suspect ment, il transpire. (On observe que) Ce suspect transpire.
  • Par conséquent, ce suspect ment.

Exemple 2

  • Si un suspect transpire, il ment. (On observe que) Ce suspect ne transpire pas.
  • Par conséquent, ce suspect ne ment pas.

Exemple 3

  • Tous les menteurs transpirent. (On observe que) Ce suspect ne transpire pas.
  • Par conséquent, ce suspect n’est pas un menteur.

Arguments invalides

  • Affirmation du conséquent : \(\dfrac{A \Rightarrow B, \ B}{A}\)

  • Si il a plu, alors le sol est mouillé (A implique B). Le sol est mouillé (B). Donc il a plu (A).

  • Négation de l’antécédent : \(\dfrac{A \Rightarrow B, \ \neg A}{\neg B}\)

  • Si il a plu, alors le sol est mouillé (A implique B). Il n’a pas plus (non A). Donc le sol n’est pas mouillé (non B).

Arguments valides

  • Modus ponens : \(\dfrac{A \Rightarrow B, \ A}{B}\)

  • Si on est lundi, alors John ira au travail (A implique B). On est lundi (A). Donc John ira au travail (B).

  • Modus tollens : \(\dfrac{A \Rightarrow B, \ \neg B}{\neg A}\)

  • Si mon chien détecte un intru, alors il aboie (A implique B). Mon chien n’a pas aboyé (non B). Donc il n’a pas détecté d’intrus (non A).

Logique, fréquentisme, et raisonnement probabiliste

Le modus tollens est un des raisonnements logiques les plus importants et les plus performants. Dans le cadre de l’inférence statistique, il s’applique parfaitement au cas suivant : “Si \(\mathcal{H}_{0}\) est vraie, alors \(x\) ne devrait pas se produire. On observe \(x\). Alors \(\mathcal{H}_{0}\) est fausse”.

Mais nous avons le plus souvent affaire à des hypothèses “continues” (probabilistes).

L’inférence fréquentiste (fishérienne) est elle aussi probabiliste, de la forme “Si \(\mathcal{H}_{0}\) est vraie, alors \(x\) est peu probable. On observe \(x\). Alors \(\mathcal{H}_{0}\) est peu probable.”

Or cet argument est invalide, le modus tollens ne s’applique pas au monde probabiliste (e.g., Pollard & Richardson, 1987; Rouder, Morey, Verhagen, et al., 2016).

Par exemple :

  • Si un individu est un homme (“man”), alors il est peu probable qu’il soit pape.
  • François est pape.
  • François n’est donc certainement pas un homme…

L’échec de la falsification

Poppérisme naïf : la science progresse par falsification logique, donc la statistique devrait viser la falsification. Mais…

  • Les hypothèses théoriques ne sont pas les modèles (hypothèses statistiques).

Models are devices that connect theories to data. A model is an instanciation of a theory as a set of probabilistic statements (Rouder, Morey, & Wagenmakers, 2016).

  • Nos hypothèses sont souvent probabilistes.
  • La falsification concerne le problème de la démarcation, pas celui de la méthode.
  • La science est une technologie sociale, la falsification est consensuelle, et non pas logique.

Comparaison de modèles

On s’intéresse au lien entre deux variables aléatoires continues, \(x\) et \(y\).

Comparaison de modèles

L’hypothèse de modélisation la plus simple est de postuler une relation linéaire.

Comparaison de modèles

Cette description peut-être améliorée pour mieux prendre en compte les données qui s’écartent de la prédiction linéaire.

Comparaison de modèles

Un ensemble de \(N\) points peut être exhaustivement (i.e., sans erreur) décrit par une fonction polynomiale d’ordre \(N-1\). Augmenter la complexité du modèle améliore donc la précision de notre description des données mais réduit la généralisabilité de ses prédictions (bias-variance tradeoff).

Nous avons besoin d’outils qui prennent en compte le rapport qualité de la description / complexité, c’est à dire la parcimonie des modèles (e.g., AIC, WAIC).

Notre stratégie

Nous avons nesoin d’un cadre pour développer des modèles cohérents. Nos outils :

  • Modélisation bayésienne : utiliser les probabilités pour décrire l’incertitude.
  • Modélisation multi-niveaux : des modèles à multiples niveaux d’incertitude.
  • Approche par comparaison de modèles : au lieu d’essayer de falsifier un “null model”, on va comparer des modèles intéressants (par exemple via des critères d’information comme l’AIC ou WAIC).

Rappels : Théorie des probabilités

Loi de probabilité, cas discret

Une fonction de masse (probability mass function, ou PMF) est une fonction qui attribue une probabilité à chaque valeur d’une variable aléatoire. Exemple de la distribution binomiale pour une pièce non biaisée (\(\theta = 0.5\)), probabilité d’obtenir \(N\) faces sur 10 lancers.

# PMFs sum to 1
dbinom(x = 0:10, size = 10, prob = 0.5) %>% sum
[1] 1

Loi de probabilité, cas continu

Une (fonction de) densité de probabilité (probability density function, ou PDF), est une fonction qui permet de représenter une loi de probabilité sous forme d’intégrales (l’équivalent de la PMF pour des variables aléatoires strictement continues).

# PDFs integrate to 1
integrate(dnorm, -Inf, Inf, mean = 100, sd = 15)
1 with absolute error < 1.3e-06

Qu’est-ce qu’une intégrale ?

Une intégrale correspond à la surface (aire géométrique) délimitée par la représentation graphique d’une fonction, l’aire sous la courbe. Une distribution est dite impropre si son intégrale n’est pas égale à un nombre fini (e.g., \(+ \infty\)) et normalisée si son intégrale est égale à 1.

Aparté, qu’est-ce qu’une intégrale ?

L’intégrale de \(f(x)\) sur l’intervalle [90 ; 96] vaut : \(p(90 < x < 96) = \int_{90}^{96} f(x) \ \mathrm{d}x = 0.142\).

integrate(dnorm, 90, 96, mean = 100, sd = 15)
0.1423704 with absolute error < 1.6e-15

Exemple d’application n°1

Diagnostique médical (Gigerenzer et al., 2007)

  • Chez les femmes âgées de 40-50 ans, sans antécédents familiaux et sans symptômes, la probabilité d’avoir un cancer du sein est de 0.008.

  • Propriétés de la mammographie :

    • Si une femme a un cancer du sein, la probabilité d’avoir un résultat positif est de 0.90.
    • Si une femme n’a pas de cancer du sein, la probabilité d’avoir un résultat positif est de 0.07.
  • Imaginons qu’une femme passe une mammographie, et que le test est positif. Que doit-on inférer ? Quelle est la probabilité que cette femme ait un cancer du sein ?

Logique du maximum likelihood

  • Une approche générale de l’estimation de paramètre.
  • Les paramètres gouvernent les données, les données dépendent des paramètres.
    • Sachant certaines valeurs des paramètres, nous pouvons calculer la probabilité conditionnelle des données observées.
    • Le résultat de la mammographie (i.e., les données) dépend de la présence / absence d’un cancer du sein (i.e., le paramètre).
  • L’approche par maximum de vraisemblance pose la question : “Quelles sont les valeurs du paramètre qui rendent les données observées les plus probables ?”
  • Spécifier la probabilité conditionnelle des données \(p(x \given \theta)\).
  • Quand on le considère comme fonction de \(\theta\), on parle de vraisemblance (likelihood) : \(\mathcal{L}(\theta \given x) = p(X = x \given \theta)\).
  • L’approche par maximum de vraisemblance consiste donc à maximiser cette fonction, en utilisant les valeurs (connues) de \(x\).

Probabilité conditionnelle

  • Si une femme a un cancer du sein, la probabilité d’obtenir un résultat positif est de .90.
    • \(\Pr(\text{Mam=+} \given \text{Cancer=+}) = 0.90\)
    • \(\Pr(\text{Mam=-} \given \text{Cancer=+}) = 0.10\)
  • Si une femme n’a pas de cancer du sein, la probabilité d’obtenir un résultat positif est de .07.
    • \(\Pr(\text{Mam=+} \given \text{Cancer=-}) = 0.07\)
    • \(\Pr(\text{Mam=-} \given \text{Cancer=-}) = 0.93\)

Diagnostique médical, maximum likelihood

Si le test est positif, la logique du maximum de vraisemblance consiste à se demander quelle est la valeur de \(\text{Cancer}\) qui maximise \(\text{Mam=+}\) ?

  • \(\Pr(\text{Mam=+} \given \text{Cancer=+}) = 0.90\)
  • \(\Pr(\text{Mam=+} \given \text{Cancer=-}) = 0.07\)

En suivant cette approche, on conclut à la présence d’un cancer (car cela maximise la probabilité d’apparition d’un mammogramme positif)…

Wait a minute…

Diagnostique médical, fréquences naturelles

  • Considérons 1000 femmes âgées de 40 à 50 ans, sans antécédents familiaux et sans symptômes de cancer
    • 8 femmes sur 1000 ont un cancer
  • On réalise une mammographie
    • Sur les 8 femmes ayant un cancer, 7 auront un résultat positif
    • Sur les 992 femmes restantes, 69 auront un résultat positif
  • Une femme passe une mammographie, le résultat est positif
  • Que devrait-on inférer ?

Diagnostique médical, fréquences naturelles

\[\Pr(\text{Cancer=+} \given \text{Mam=+}) = \frac{7}{7 + 69} = \frac{7}{76} \approx 0.09\]

Diagnostique médical, théorème de Bayes

\[ \color{purple}{p(\theta \given x)} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{p(x)}} \]

\(\color{steelblue}{p(\theta)}\) représente la probabilité a priori de \(\theta\) : tout ce qu’on sait de \(\theta\) avant d’observer les données. En l’occurrence : \(\Pr(\text{Cancer=+}) = 0.008\) et \(\Pr(\text{Cancer=-}) = 0.992\).

prior <- c(0.008, 0.992)

Diagnostique médical, théorème de Bayes

\[ \color{purple}{p(\theta \given x)} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{p(x)}} \]

\(\color{orangered}{p(x \given \theta)}\) représente la probabilité conditionnelle des données \(x\) sachant le paramètre \(\theta\), qu’on appelle aussi la fonction de vraisemblance (likelihood function) du paramètre \(\theta\).

like <- rbind(c(0.9, 0.1), c(0.07, 0.93) ) %>% data.frame
colnames(like) <- c("Mam+", "Mam-")
rownames(like) <- c("Cancer+", "Cancer-")
like
        Mam+ Mam-
Cancer+ 0.90 0.10
Cancer- 0.07 0.93

Diagnostique médical, théorème de Bayes

\[\color{purple}{p(\theta \given x)} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{p(x)}}\]

\(p(x)\) la probabilité marginale de \(x\) (sur \(\theta\)). Constante, sert à normaliser la distribution.

\[\color{green}{p(x) = \sum\limits_{\theta}p(x \given \theta)p(\theta)}\]

(marginal <- sum(like$"Mam+" * prior) )
[1] 0.07664

Diagnostique médical, théorème de Bayes

\[\color{purple}{p(\theta \given x)} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{p(x)}}\]

\(\color{purple}{p(\theta \given x)}\) la probabilité a posteriori de \(\theta\) sachant \(x\), c’est à dire ce qu’on sait de \(\theta\) après avoir pris connaissance de \(x\).

(posterior <- (like$"Mam+" * prior ) / marginal )
[1] 0.09394572 0.90605428

L’inférence bayésienne comme mise à jour probabiliste des connaissances

Avant de passer le mammogramme, la probabilité qu’une femme tirée au sort ait un cancer du sein était de \(\Pr(\text{Cancer=+}) = 0.008\) (prior). Après un résultat positif, cette probabilité est devenue \(\Pr(\text{Cancer=+} \given \text{Mam=+}) = 0.09\) (posterior). Ces probabilités sont des expressions de nos connaissances. Après un mammogramme positif, on pense toujours que c’est “très improbable” d’avoir un cancer, mais cette probabilité a considérablement évolué relativement à “avant le test”.

A Bayesianly justifiable analysis is one that treats known values as observed values of random variables, treats unknown values as unobserved random variables, and calculates the conditional distribution of unknowns given knowns and model specifications using Bayes’ theorem (Rubin, 1984).

Exemple d’application n°2

Monty Hall

Monty Hall

Que-feriez-vous (intuitivement) ? Analysez ensuite la situation en utilisant le théorème de Bayes.

Monty Hall

Il s’agit d’un problème de probabilités conditionnelles… Définissons les évènements suivants :

P1 : l’animateur ouvre la porte 1
P2 : l’animateur ouvre la porte 2
P3 : l’animateur ouvre la porte 3

V1 : la voiture se trouve derrière la porte 1
V2 : la voiture se trouve derrière la porte 2
V3 : la voiture se trouve derrière la porte 3

Si on a choisi la porte n°1 et que l’animateur a choisi la porte n°3 (et qu’il sait où se trouve la voiture), il s’ensuit que :

\(\Pr(\text{P3} \given \text{V1}) = \dfrac{1}{2}, \quad \Pr(\text{P3} \given \text{V2}) = 1, \quad \Pr(\text{P3} \given \text{V3}) = 0.\)

Monty Hall

On sait que \(\Pr(\text{V3} | \text{P3}) = 0\), on veut connaître \(\Pr(\text{V1} \given \text{P3})\) et \(\Pr(\text{V2} \given \text{P3})\) afin de pouvoir choisir. Résolution par le théorème de Bayes.

\(\Pr(\text{V1} \given \text{P3}) = \dfrac{\Pr(\text{P3} \given \text{V1}) \times \Pr(\text{V1})}{\Pr(\text{P3})} = \dfrac{\dfrac{1}{2} \times \dfrac{1}{3}}{\dfrac{1}{2}} = \dfrac{1}{3}\)

\(\Pr(\text{V2} \given \text{P3}) = \dfrac{\Pr(\text{P3} \given \text{V2}) \times \Pr(\text{V2})}{\Pr(\text{P3})} = \dfrac{1 \times \dfrac{1}{3}}{\dfrac{1}{2}} = \dfrac{2}{3}\)

Monty Hall

Take-home message

Nos intuitions probabilistes sont généralement très mauvaises. Au lieu de compter sur elles, il est plus sage de se reposer sur des règles logiques (e.g., modus ponens et modus tollens) et probabilistes (e.g., règle du produit, règle de la somme, théorème de Bayes) simples, nous assurant de réaliser l’inférence la plus juste. Autrement dit, “don’t be clever” (McElreath, 2020).

Retenir les définitions des probabilités conjointes, marginales, et conditionnelles, ainsi que la règle du produit et l’utilisation du théorème de Bayes (qui en découle) pour mettre à jour des connaissances :

\[ \color{purple}{p(\theta \given x)} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{p(x)}} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{\sum\limits_{\theta}p(x \given \theta)p(\theta)}} = \dfrac{\color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)}}{\color{green}{\int\limits_{\theta}p(x \given \theta)p(\theta)\mathrm{d}x}} \propto \color{orangered}{p(x \given \theta)} \color{steelblue}{p(\theta)} \]

Références

Carnap, R. (1971). Logical foundations of probability (4. impr). Univ. of Chicago Press [u.a.].
Gigerenzer, G., Gaissmaier, W., Kurz-Milcke, E., Schwartz, L. M., & Woloshin, S. (2007). Helping Doctors and Patients Make Sense of Health Statistics. Psychological Science in the Public Interest, 8(2), 53–96. https://doi.org/10.1111/j.1539-6053.2008.00033.x
Jaynes, E. T. (1986). Bayesian methods: General background.
Keynes, J. M. (1921). A Treatise On Probability. Macmillan And Co.,. http://archive.org/details/treatiseonprobab007528mbp
Kolmogorov, A. N. (1933). Foundations of the theory of probability. New York, USA: Chelsea Publishing Company.
McElreath, R. (2016). Statistical rethinking: A bayesian course with examples in r and stan. CRC Press/Taylor & Francis Group.
McElreath, R. (2020). Statistical rethinking: A bayesian course with examples in r and stan (2nd ed.). Taylor; Francis, CRC Press.
Pollard, P., & Richardson, J. T. (1987). On the probability of making type i errors. Psychological Bulletin, 102(1), 159–163. https://doi.org/10.1037/0033-2909.102.1.159
Rouder, J. N., Morey, R. D., Verhagen, J., Province, J. M., & Wagenmakers, E.-J. (2016). Is There a Free Lunch in Inference? Topics in Cognitive Science, 8(3), 520–547. https://doi.org/10.1111/tops.12214
Rouder, J. N., Morey, R. D., & Wagenmakers, E.-J. (2016). The Interplay between Subjectivity, Statistical Practice, and Psychological Science. Collabra, 2(1), 6. https://doi.org/10.1525/collabra.28
Rubin, D. B. (1984). Bayesianly justifiable and relevant frequency calculations for the applied statistician. The Annals of Statistics, 12(4). https://doi.org/10.1214/aos/1176346785