Arbres et formules classiques de probabilités

Y. Morel

Un arbre de probabilités est un outil efficace pour traiter des problèmes de probabilités ou de décision. Cette efficacité tient notamment au fait que ces arbres, en respectant quatre simples règles, contiennent de nombreuses formules classiques et usuelles de probabilité.
Le but de cet article est de faire le lien entre les arbres de probabilités et leurs quelques quatre règles et des propriétés très classiques de probabilité: probabilité conditionnelle, formule de Bayes, formules des probabilités totales et des probabilités composées.

Arbre de probabilités

Introduction et exemples

Un arbre de probabilité est un arbre descriptif des issues d'une expérience aléatoire, chaque issue étant pondérée par une probabilité.
Un tel arbre est un outil très efficace pour décrire, modéliser et enfin résoudre bon nombre de problèmes liés à des questions de probabilités.

Exemple 1

On lance un dé à six faces, numérotées de 1 à 6, bien équilibré.
La règle du jeu est la suivante: si le chiffre obtenu est inférieur ou égal à 2, on le relance une deuxième fois et on ajoute alors le nouveau chiffre obtenu au premier; si le chiffre obtenu est supérieur ou égal à 3, on conserve ce résultat.

Quelle est la probabilité d'obtenir un score de 6 ?

Correction:

On peut représenter la situation avec un arbre:

Chaque tirage à une probabilité p = 16 (c'est la règle 1 de construction d'un arbre).
Obtenir 6 peut se faire de trois manières (trois chemins dans cet arbre):

Obtenir un 1 puis un 5, de probabilité p = 16 × 16 = 16² (règle 2)
Obtenir un 2 puis un 6, de probabilité p = 16 × 16 = 16² (règle 2)
Obtenir un 6 directement, de probabilité p = 16 (règle 2)

La probabilité de l'événement "obtenir 6" est donc: (règle 4 ou formule des probabilités totales)

p = 16² + 16² + 16 = 836 = 29

Exemple 2

Une entreprise produit des composants dans deux usines. La première fournit 70% de la production, la deuxième le reste. Si la première usine produit plus que la deuxième, sa production est par contre un peu moins efficace: 4% des composants qu'elle produit son défectueux contre 3% pour la deuxième usine.
Quelle est la proportion de pièces défectueuses dans la production totale ?

Correction:

Cet exercice est un simple exercice de proportions/pourcentages qui peut se résoudre sans arbre ni formule complexe de probabilité: il y a 4% des 70% de composants défectueux pour la première usine, soit 4%×70% = 2,8%, et 3% des 30% restants pour la deuxième, soit 3%×30% = 0,9%.
Au total, il y 2,8% + 0,9% = 3,7% de composants défectueux produits.

La description, puis le calcul, est néanmoins pratique et efficace avec un arbre pondéré, et permet d'inscrire ce problème simple dans une classe bien plus large de problèmes.
On note l'événement D: "le composant est défectueux", et on peut alors dresser l'arbre pondéré

La proportion de pièces défectueuses est alors

p = 70% × 4% + 30%× 3% = 0,037 = 3,7%

Les arbres sont abondamment utilisés en probabilité. De nombreuses formules classiques de probabilités se font de plus en plus rares dans les cours de probabilité, sans avoir disparues pour autant: un bon nombre de ces formules s'utilisent "naturellement" via un arbre de probabilités, sans même avoir besoin de les nommer.

Arbre général de probabilités

Règles de construction et de calculs

Règle 1:

La somme des probabilités des branches issues d'un même nœud est égale à 1.

Par exemple ici, p₁ + p₂ + p₃ = 1, et aussi p₄ + p₅ = 1, ou encore p₁₁ + p₁₂ = 1, …

Règle 2:

Un chemin décrit l'intersection des événements qui le composent. Sa probabilité est le produit des probabilités.

Par exemple ici,

Le chemin menant de Ω à D décrit l'événement A∩D, sa probabilité est P(A∩D) = p₁ × p₄.
Le chemin menant de Ω à I décrit l'événement B∩F∩I, sa probabilité est P(B∩F∩I) = p₂ × p₆ × p₁₁.

Règle 3:

Sur chaque branche, la probabilité indiquée est la probabilité conditionnelle de l'événement d'arrivé (à droite) sachant celui de départ (à gauche).

Par exemple ici, p₄ = P_A(D), p₆ = P_B(F), p₁₁ = P_B∩F(I), et p₁ = P_Ω(A) = P(A).

Règle 4:

La probabilité d'un événement est la somme des probabilités des chemins qui mènent à cet événement.

Par exemple ici, l'événement E se trouvent sur deux chemins et on a P(E) = P(A∩E) + P(C∩E) = p₁ × p₅ + p₃ × p₁₀

Ces règles contiennent (en fait, viennent de …) des formules classiques et usuelles de probabilités. Le but de ce qui suit est justement de voir (au sens propre du terme !, sur un arbre) ces formules.

Probabilité conditionnelle

Les probabilités conditionnelles apparaissent directement dans les arbres, d'après la règle 3.
Pour deux événements par exemple, l'arbre se présente ainsi, d'après la règle 3:

et on a directement, d'après la règle 2, par exempe pour le chemin du haut:

P(A∩B) = P(A) × P_A(B)

qui est, en divisant par P(A), la définition même de la probabilité conditionnelle:

Définition: probabilité conditionnelle

Pour deux événements A et B de probabilités non nulles, la probabilité conditionnelle de B sachant A est donnée par

P_A(B) = P(A∩B)P(A)

Formule de Bayes

La formule de Bayes permet d'"inverser" les probabilités conditionnelles, c'est-à-dire de calculer P_B(A) en connaissant P_A(B).
Son expression est naturelle en utilisant justement l'arbre dit "inversé":

Dans les deux arbres, le chemin du haut, par exemple, décrit le même événement A∩B, et on a alors

dans l'arbre de gauche P(A∩B) = P(A) × P_A(B)
dans l'arbre inversé à droite P(A∩B) = P(B) × P_B(A)

On obtient donc, en égalant ces deux probabilités

P(A) × P_A(B) = P(B) × P_B(A)

ou encore, en divisant par P(A)

P_A(B) = P_B(A) P(B)P(A)

qui est la formule de Bayes réalisant l'inversion annoncée.

Propriété: Formule de Bayes

Pour A et B deux événements de probabilités non nulles on a

P_A(B) = P_B(A) P(B)P(A)

Exercice 3

J'ai trois pièces dans ma poche, deux normales, et une avec "Pile" sur ses deux faces.
Je prends une pièce au hasard dans ma poche, la lance et obtiens "Pile". Quelle est la probabilité que cette pièce présente aussi "Pile" sur son autre face ?

Correction: On note les événements:

A: "la pièce prise dans ma poche est la pièce avec Pile sur les deux côtés"
B: "j'obtiens Pile"

Il est facile de voir que P_A(B) = 1 (sachant que j'ai lancé la pièce avec Pile des deux côtés, j'obtiens à coup sûr Pile).
La probabilité qui nous intéresse ici est celle "inverse": P_B(A).
On a alors, d'après l'énoncé, P(A) = 13, et, pour les pièces normales (équilibrées), P_A(B) = 12.
La probabilité recherchée, la pièce lancée présente aussi Pile sur son autre côté sachant que j'ai déjà obtenu Pile en la lançant (c'est-à-dire que cette pièce soit celle avec Pile des deux côtés) est enfin ,

P_B(A) = P_A(B) P(A)P(B)

Il reste donc à calculer la probabilité P(B). Un arbre de probabilités, ou la formule des probabilités totales qui suit permet de le faire.

Comme dans l'exemple/exercice précédent, la formule de Bayes on complète la formule de Bayes avec la formule des probabilités totales.

Formule des probabilités totales

D'après l'arbre:

on a la formule en appliquant la règle 4:

P(B) = P(A₁) × P_A₁(B) + P(A₂) × P_A₂(B) + … + P(A_n) × P_{A_n}(B) = ⁿ∑_i=1 P_{A_i}(B)

qui est la formule des probabilités totales:

Propriété: formule des probabilités totales

Si (A_i)_1<i<n est un système complet d'événement (ou une partition) de l'univers Ω alors, pour tout événement B, on a la formule des probabilités totales

P(B) = P(A₁) × P_A₁(B) + P(A₂) × P_A₂(B) + … + P(A_n) × P_{A_n}(B) = ⁿ∑_i=1 P_{A_i}(B)

La formule de Bayes prend souvent son intérêt lorsque combinée avec la formule des probabilités totales.

Exercice 4

Une maladie touche une personne sur 100 dans un pays. Un médecin effectue le dépistage d'une maladie à l'aide d'un test fourni par un laboratoire.
Les caractéristiques, données par le laboratoire, de ce test sont les suivantes:

lorsque le patient sur lequel on effectue le test est malade, le test est positif dans 95% des cas (c'est ce qu'on appelle un vrai positif);
lorsque le patient sur lequel on effectue le test n'est pas malade, le test est positif dans un cas sur 100 (c'est ce qu'on appelle un faux positif).

Cette situation nous indique que si une personne est malade, le résultat de son test est positif avec une probabilité de 95%.
Par contre, ce qu'il ne nous dit pas directement, et c'est pourtan ce qui intéresse le plus fortement le patient utilisateur d'un tel test est: un patient reçoit un résultat positif. Quelle est la probabilité qu'il soit malade ?

Correction: Avec des arbres

On note les événements:

M: "La personne est malade"
T: "Le résultat du test est positif"

et la situation se modélise alors par l'arbre

$\psset{unit=1.5cm} \begin{pspicture}(-.2,-1.8)(3,1.8) \psline(1,1)(0,0)(1,-1) \rput(0.4,0.8){$0,01$}\rput(1.3,1){$M$} \rput(0.3,-0.8){$0,99$}\rput(1.3,-1){$\overline{M}$} \psline(2.5,1.5)(1.5,1)(2.5,0.5) \rput(2,1.5){$0,95$}\rput(2.7,1.5){$T$} \rput(2,0.4){$0,05$}\rput(2.7,0.5){$\overline{T}$} \psline(2.5,-1.5)(1.5,-1)(2.5,-0.5) \rput(2,-1.6){$0,99$}\rput(2.7,-1.5){$\overline{T}$} \rput(2,-.5){$0,01$}\rput(2.7,-0.5){$T$} \end{pspicture}$

La probabilité qu'une personne soit malade et ait un test positif est

P(M∩T) = 0,01 × 0,95 = 0,0095

La probabilité qu'une personne prise au hasard dans la population ait un test positif est

P(T) = 0,01 × 0,95 + 0,99 × 0,01 = 0,0194

On peut dresser l'arbre de probabilités "inversé" sur lequel apparaît la probabilité P_T(M) recherchée:

$\psset{unit=1.5cm}\begin{pspicture}(-.4,-1.8)(3.2,1.9) \psline(1,1)(0,0)(1,-1) \rput(0.2,0.8){$0,0194$}\rput(1.3,1){$T$} \rput(0.2,-0.9){$0,9806$}\rput(1.3,-1){$\overline{T}$} \psline(2.5,1.5)(1.5,1)(2.5,0.5) \rput(2.7,1.5){$M$}\rput(2.7,0.5){$\overline{M}$} \psline(2.5,-1.5)(1.5,-1)(2.5,-0.5) \rput(2.7,-1.5){$\overline{M}$}\rput(2.7,-0.5){$M$} \rput(1.9,1.5){\small$P_T(M)$} \end{pspicture}$

On a alors

0,0194 × P_T(M) = 0,01 × 0,95 ⇔ P_T(M) = 0,01 × 0,950,0194 ≃ 0,49

Ce test est ainsi peu significatif: la personne ayant un test positif n'a environ qu'une chance sur deux d'être malade (la probabilité est la même en passant ce test qu'en jouant cela à pile ou face …).

Correction: Avec la formule de Bayes

On peut aussi bien sûr appliquer directement la formule de Bayes:

P_T(M) = P_M(T) × P(M)P(T)

avec P(M) = 1% donné par l'énoncé, et, en utilisant la formule des probabilités totales,

P(T) = 0,01 × 0,95 + 0,99 × 0,01 = 0,0194

Exercice 5

Dans une assemblée où 5% des joueurs sont des tricheurs, vous jouez à pile ou face avec un autre joueur.
Il parie sur pile, lance la pièce, et vous dit qu'il a obtenu pile.
Quelle est la probabilité pour qu'il soit un tricheur?

Correction:

On note les événements:

P: "le joueur obtient pile"
H: "Le joueur est honnête"
T: "le joueur est un tricheur".

Il semble raisonnable de convenir que P_H(P) = P_H(F) = 12 et que P_T(P) = 1 (le tricheur va, à coup sûr, déclarer qu'il a eu ce qu'il a parié).
On cherche alors P_P(T).
De la formule de Bayes, on déduit :

P_P(T) = P_T(P) × P(T)P(P) = P_T(P) P(T) P_T(P)P(T) + P_H(P)P(H) = 5% 5% + 12 (1 − 5%) ≃ 0,095 ≃ 10%

Ainsi, dans l'absolu, la probabilité d'être face à un tricheur est de 5%. Si la personne a gagné son parie, alors la probabilité d'être face à un tricheur est près du double…

Formule des probabilités composées

Dans un arbre, avec deux "niveaux", on a:

et donc,

P(A∩B) = P(A) × P_A(B)

ce qui est la définition de la probabilité conditionnelle.

Pour un arbre avec trois "niveaux", on a:

et on a alors

P(A∩B∩C) = P(A) × P_A(B) × P_A∩B(C)

qui est la formule des probabilités composées avec trois événements.

Cette propriété se généralise à un nombre quelconque d'événements:

Propriété: formule des probabilités composées

Soit n événements (A_i)_1<i<n tels que P ⁿ⁻¹∩_i=1A_i ≠0 , alors

P ⁿ∩_i=1A_i = P(A₁) × P_A₁(A₂) × … × P_{A₁∩A₂∩…∩A_n−1}(A_n)

Exercice 6

On considère une urne contenant 4 boules blanches et 3 boules noires. On tire une à une et sans remise 3 boules de l'urne. Quelle est la probabilité pour que la première boule tirée soit blanche, la seconde noire et la troisième blanche?

Correction:

On note les événements

A: "la première boule tirée est blanche"
B: "la deuxième boule tirée est noire"
C: "la troisième boule tirée est blanche"

à l'aide ensuite d'un arbre (du moins une partie, celle nous ntéressant), qui permet de représenter clairement la situation et les pobabilités correspondantes successives:

$\begin{pspicture} arbre et probabilités composées \end{pspicture}$

avec

au début, il y a 7 boules dont 4 blanches, donc P(A) = 47
ensuite, sachant A, il reste 6 boules dont 3 noires, et donc P_A(B) = 36 = 12
enfin, sachant A∩B, il reste 5 boules dont 3 blanches, et donc P_A∩B(C) = 35

En utilisant l'arbre, ou la formule des probabilités composées, on a alors

P(A∩B∩C) = 47 × 12 × 35 = 635

événements indépendants

Deux événénements A et B sont indépendants lorsque la connaissance de l'un ne change pas la probabilité de réalisation de l'autre:

P_B(A) = P(A)

ou encore, d'après la définition de la probabilité conditionnelle

P_B(A) = P(A∩B)P(B) = P(A) ⇔ P(A∩B) = P(A) × P(B)

Propriété: indépendance d'événements

Deux événements A et B sont indépendants si et seulement si

P(A∩B) = P(A) × P(B)

L'utilisation via un arbre se fait encore naturellement: les règles de constructions / calculs restent les mêmes, les probabilités indiquées sur les branches sont simplement à adapter.

Exercice 7

Une information est transmise à l'intérieur d'une population. Lorsque deux personnes communiquent, l'information est correctement transmise avec la probabilité p. L'information contraire est donc transmise avec la probabilité 1−p. Bien sûr une personne transmet l'information comme il le souhaite, indépendamment du fait qu'il a, ou non, l'information correcte (ce qu'il ne sait d'ailleurs peut être pas).
Déterminer p_n, la probabilité que l'information soit correcte après n transmissions.

Correction:

On note C_n l'événement: "l'information est correctement transmise à la n-ième transmission".
On peut représenter la situation avec un arbre, sur lequel, à chaque répétition, les probabilités restent p et 1−p par indépendance.

$\psset{unit=1.5cm}\begin{pspicture}(-.4,-1.8)(3.2,1.9) \psline(1,1)(0,0)(1,-1) \rput(0.3,0.5){$p$}\rput(1.3,1){$C_n$} \rput(0.2,-0.7){$1-p$}\rput(1.3,-1){$\overline{C_n}$} \psline(2.5,1.5)(1.5,1)(2.5,0.5) \rput[l](2.7,1.5){$C_{n+1}$}\rput[l](2.7,0.5){$\overline{C_{n+1}}$} \psline(2.5,-1.5)(1.5,-1)(2.5,-0.5) \rput[l](2.7,-1.5){$C_{n+1}$}\rput[l](2.7,-0.5){$\overline{C_{n+1}}$} \rput(2,1.4){$p$} \rput(2,.5){$1-p$} \rput(2,-.6){$p$} \rput(2,-1.5){$1-p$} \end{pspicture}$

L'utilisation de cet arbre, ou la formule des probabilités totales (règle 4), nous donne alors

$\bgar{ll}p_{n+1}&=P\lp C_{n+1}\rp\\[.6em] &=P\lp C_n\rp\tm P_{C_n}\lp C_{n+1}\rp +P\lp\overline{C_n}\rp\tm P_{\overline{C_n}}\lp C_{n+1}\rp\\[.6em] &=p_n\tm p+\lp1-p_n\rp\tm(1-p)\\[.6em] &=(2-p)p_n+1-p \enar$

La suite $\lp p_n\rp$ est donc une suite arithmético-géométrique, de limite éventuelle

avec

$l=(2p-1)l+1-p\iff l=\dfrac12$

Soit alors $u_n=p_n-\dfrac12$ , telle que

$\bgar{ll}u_{n+1}&=p_{n+1}-\dfrac12\\ &=(2p-1)p_n+1-p-\dfrac12\\ &=(2p-1)p_n+\dfrac12-p\\ &=(2p-1)\lp p_n-\dfrac12\rp\\ &=(2p-1)u_n\enar$

Ainsi, $\lp u_n\rp$ est géométrique de raison

et donc

$u_n=u_0(2p-1)^n=\lp p_0-\dfrac12\rp(2p-1)^n$

et finalement, en revenant à

$p_n=u_n+\dfrac12=\lp p_0-\dfrac12\rp(2p-1)^n+\dfrac12$

On distingue alors plusieurs cas:

$\left|2p-1\right|<1\iff 0<p<1$ , alors $\dsp\lim_{n\to+\infty}(2p-1)^n=0$ , et $\dsp\lim_{n\to+\infty}p_n=\dfrac12$ : si l'information n'est pas transmise certainement à chaque étape, donc $p\not=0$ et $p\not=1$ , alors à long terme l'information est perdue, une personne à une chance sur deux d'entendre la vraie information comme son contraire
si , alors pour tout , : l'information est sûrement transmise, et la proportion de personnes qui possèdent la vraie information est constante.
si , alors $p_n=(-1)^n\lp p_0-\dfrac12\rp+\dfrac12$ et vaut alternativement et : tout le monde dit toujours le contraire de ce qu'il entend…