3 Des distances sur les distributions de probabilités
Dans ce chapitre, on supposera que
3.1 La distance de -Wasserstein
Définition 3.1 On définit, si
Proposition 3.1 Si
Preuve. Présentons la preuve proposée par Villani (2009). Montrons d’abord que
Soit
(Symétrie). Elle découle de celle du problème de Monge-Kantorovitch.
(Séparation). Notons
le couplage défini par : de sorte que si , on a d’où et est optimal : . Réciproquement, si , soit un couplage optimal de (dont l’existence est garantie par la Proposition 1.1). Alors p.s., i.e. p.s. (par séparation de ), et en particulier . D’où .(Inégalité triangulaire). Commençons par fixer un couplage optimal
(et )) de (respectivement ), on utilise ensuite le lemme gluant, prouvé par Villani (2003) :Lemme 3.1 (gluant) Soit
, , des espaces polonais (métriques, complets, séparables), et , , des mesures de probabilité sur ces espaces respectifs. Si et sont deux couplages, alors il existe une mesure de probabilité ayant pour marges sur et sur .Par le lemme, on dispose d’un triplet
tel que et soient égales en loi respectivement à et ; en particulier, est un couplage de . D’où : C’est l’inégalité triangulaire attendue.
Enfin, montrons que
Exemple 3.1 On a immédiatement que la distance de
3.2 Les autres distances et divergences classiques
L’idée de quantifier la dissimilarité entre deux distributions n’est pas nouvelle, et de nombreuses divergences ont été étudiées, notamment la divergence de Kullback-Leibler, qui s’interprète comme l’entropie relative des deux distributions.
Définition 3.2 Une divergence sur un ensemble
- (Distance en variation totale).
- (Divergence de Kullback-Leibler).
où et sont absolument continues par rapport à une mesure . - (Divergence de Jensen-Shannon).
Exemple 3.2 Prenons
(symbole de Kronecker)
3.3 Comparaison des notions de convergence
Le résultat suivant a été démontré par Arjovsky, Chintala, et Bottou (2017) afin de comparer les notions de convergence induites par les différentes distances et divergences :
Théorème 3.1 Supposons que
si, et seulement, si converge étroitement vers .
Preuve.
- Le premier résultat découle de l’inégalité de Pinsker :
- Ce résultat est admis, la preuve (calculatoire) est à retrouver en annexe de (Arjovsky, Chintala, et Bottou 2017).
- La démonstration est celle de Villani (2009).
- Par le théorème de représentation de Riesz,
est isométrique à une sous-partie de l’espace dual des fonctions continues sur . Sa topologie est donc plus fine que la topologie faible , d’où le résultat. Villani montre une majoration explicite :