3  Des distances sur les distributions de probabilités

Dans ce chapitre, on supposera que X=Y est un espace métrique muni d’une distance d et de sa tribu de Borel B(X). On va montrer qu’alors la distance d sur X induit, via le transport optimal, une famille de distances sur un sous-espace de P(X) contenant les mesures à support fini (et égal à l’espace tout entier si l’on suppose en outre X compact).

3.1 La distance de p-Wasserstein

Définition 3.1 On définit, si p1, la distance de p-Wasserstein par : Wp(μ,ν)=(Ldp(μ,ν))1p[0,+]

Proposition 3.1 Si X est séparable complet, la distance de p-Wasserstein est une distance sur : Pp(X)={μP(X),x0X,d(x0,)p,μ<+}

Preuve. Présentons la preuve proposée par Villani (). Montrons d’abord que Wp vérifie les axiomes d’une distance, nous montrerons ensuite qu’elle est à valeurs réelles sur Pp(X).

Soit μ,ν,ξ des mesures de probabilité sur X.

  1. (Symétrie). Elle découle de celle du problème de Monge-Kantorovitch.

  2. (Séparation). Notons πΠ(μ,μ) le couplage défini par : π(A×B)=μ(AB) si A,BB(X) de sorte que si (X,Y)π, on a X=Y p.s. d’où E[d(X,Y)]=0 et π est optimal : W1(μ,μ)=0. Réciproquement, si Wp(μ,ν)=0, soit (X,Y) un couplage optimal de (μ,ν) (dont l’existence est garantie par la ). Alors d(X,Y)=0 p.s., i.e. X=Y p.s. (par séparation de d), et en particulier XY. D’où μ=ν.

  3. (Inégalité triangulaire). Commençons par fixer un couplage optimal (X,Y) (et (Y,Z)) de (μ,ν) (respectivement (ν,ξ)), on utilise ensuite le lemme gluant, prouvé par Villani () :

    Lemme 3.1 (gluant) Soit X1, X2, X3 des espaces polonais (métriques, complets, séparables), et μ1, μ2, μ3 des mesures de probabilité sur ces espaces respectifs. Si π12Π(μ1,μ2) et π23Π(μ2,μ3) sont deux couplages, alors il existe une mesure de probabilité πP(X1×X2×X3) ayant pour marges π12 sur X1×X2 et π23 sur X2×X3.

    Par le lemme, on dispose d’un triplet (X,Y,Z)P(X3) tel que (X,Y) et (Y,Z) soient égales en loi respectivement à (X,Y) et (Y,Z); en particulier, (X,Z) est un couplage de (μ,ξ). D’où : Wp(μ,ξ)E[d(X,Z)p]1pE[(d(X,Y)+d(Y,Z))p]1p (inégalité triangulaire)(E[d(X,Y)p]+E[d(Y,Z)p])1p (inégalité de Minkovski)Wp(μ,ξ)Wp(μ,ν)+Wp(ν,ξ) C’est l’inégalité triangulaire attendue.

Enfin, montrons que Wp prend des valeurs finies sur Pp(X). Si μ et ν sont dans Pp(X), et πΠ(μ,ν), alors l’inégalité (découlant par exemple du binôme de Newton) : d(x,y)2p1(d(x,x0)p+d(x0,y)p) montre qu’il suffit que d(,x0)p soit μ-intégrable et d(x0,)p soit ν-intégrable pour que dp soit π-intégrable, et de plus que la définition de Pp(X) ne dépend pas du choix de x0X

Exemple 3.1 On a immédiatement que la distance de p-Wasserstein entre deux mesures de Dirac est donnée par : Wp(δx,δy)=d(x,y) si (x,y)X2

3.2 Les autres distances et divergences classiques

L’idée de quantifier la dissimilarité entre deux distributions n’est pas nouvelle, et de nombreuses divergences ont été étudiées, notamment la divergence de Kullback-Leibler, qui s’interprète comme l’entropie relative des deux distributions.

Définition 3.2 Une divergence sur un ensemble E est une application d de E2 dans R+ séparant les points : (x,y)E2,x=yd(x,y)=0

  1. (Distance en variation totale). δ(μ,ν)=supAB(X)|μ(A)ν(A)|
  2. (Divergence de Kullback-Leibler). KL(μ,ν)=Xlog(μ(x)ν(x))μ(x)dρ(x)μ et ν sont absolument continues par rapport à une mesure ρP(X).
  3. (Divergence de Jensen-Shannon). JS(μ,ν)=KL(μ,ξ)+KL(ν,ξ) où ξ=μ+ν2

Exemple 3.2 Prenons X=R2 et YU([0,1]). Considérons la famille de mesures de probabilité (μθ)θRμθ est la loi de la variable aléatoire (θ,Y) (i.e. la distribution uniforme sur le segment vertical d’abscisse θ). Alors on a :

  • W1(μθ,μ0)=|θ|
  • δ(μθ,μ0)=δθ (symbole de Kronecker)
  • KL(μθ,μ0)=+×δθ
  • JS(μθ,μ0=log2×δθ

Figure 3.1: Tracés de W1(μθ,μ0) (à gauche) et JS(μθ,μ0) (à droite) en fonction de θ, illustrant la différence de régularité et de finesse de convergence entre la distance de Wasserstein et la divergence de Jensen-Shannon.

3.3 Comparaison des notions de convergence

Le résultat suivant a été démontré par Arjovsky, Chintala, et Bottou () afin de comparer les notions de convergence induites par les différentes distances et divergences :

Théorème 3.1 Supposons que X soit compact. Soit μ et (μn)nN dans P(X). Alors :

  1. KL(μn,μ)0 ou KL(μ,μn)0δ(μn,μ)0
  2. δ(μn,μ)0JS(μn,μ)0
  3. δ(μn,μ)W1(μn,μ)0
  4. W1(μn,μ)0 si, et seulement, si μn converge étroitement vers μ.

Preuve.

  1. Le premier résultat découle de l’inégalité de Pinsker : δ(μn,μ)12KL(μn,μ)0 et δ(μ,μn)12KL(μ,μn)0
  2. Ce résultat est admis, la preuve (calculatoire) est à retrouver en annexe de ().
  3. La démonstration est celle de Villani ().
  4. Par le théorème de représentation de Riesz, (P(X),δ) est isométrique à une sous-partie de l’espace dual des fonctions continues sur X. Sa topologie est donc plus fine que la topologie faible , d’où le résultat. Villani montre une majoration explicite : W1(μ,ν)Diam(X)δ(μ,ν)