Entropia: trochę pojęć i rachunków

by Jerry Sky

2020-11-12



1. Zmienna losowa

Myślimy tu o entropii zmiennej losowej.

X:ΩX(u nas X jest skonˊczona) X: \Omega \to \mathcal{X} \quad (\text{u nas } \mathcal{X} \text{ jest skończona})

Zamiast P(X=x),xXP(X = x), \enspace x \in \mathcal{X} będziemy pisać p(x)p(x).

H(X)=xXp(x)log1p(x). H(X) = \sum_{x \in \mathcal{X}} p(x) \log \frac{1}{p(x)}.


2. DEF: Entropia łączna

Mamy zmienne losowe:

X:ΩX,Y:ΩY. X: \Omega \to \mathcal{X}, \enspace Y: \Omega \to \mathcal{Y}.

Przez entropię łączną rozumiemy

H(X,Y)=xXyYp(x,y)log1p(x,y) H(X,Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log \frac{1}{p(x,y)}

gdzie

p(x,y)=P(X=x,Y=y)=P(X=xY=y). p(x,y) = P(X = x, Y = y) = P(X = x \land Y = y).

Można myśleć o tym jak o zmiennej losowej

T:ΩX×YT(ω)=(X(ω),Y(ω))H(X,Y)=H(T) T: \Omega \to \mathcal{X} \times \mathcal{Y} \\[10pt] T(\omega) = \left( X(\omega), Y(\omega) \right) \\[10pt] H(X,Y) = H(T)

Umawiamy się, że 0log10=00 \cdot \log \frac{1}{0} = 0.


2.1. Przykład (oczywisty)

Mamy H(X,X)=xXxXp(x,x)log1p(x,x)=() H(X,X) = \sum_{x\in\mathcal{X}} \sum_{x' \in \mathcal{X}} p(x,x') \cdot \log \frac{1}{p(x,x')} = (*) gdzie p(x,x)=P(X=XX=x)={0xxp(x)x=x p(x,x') = P(X = X \land X = x') = \begin{cases} 0 & x \neq x'\\ p(x) & x = x'\\ \end{cases} co daje nam ()=xXp(x)log1p(x)=H(X). (*) = \sum_{x\in\mathcal{X}} p(x) \log \frac{1}{p(x)} = H(X).


2.2. Przykład

Załóżmy, że XX i YY są niezależne, czyli

P(X=x,Y=y)=P(X=x)P(Y=y),p(x,y)=p(x)p(y), P(X = x, Y = y) = P(X = x) \cdot P(Y = y), \quad p(x,y) = p(x) \cdot p(y),

wówczas

H(X,Y)=x,yp(x,y)log1p(x,y)=x,yp(x)p(y)1p(x)p(y)==x,yp(x)p(y)(log1p(x)+log1p(y))==x,yp(x)p(y)log1p(x)+x,yp(x)p(y)log1p(y)==(yp(y))(xp(x)log1p(x))+(xp(x))(yp(y)log1p(y))==H(X)+H(Y). H(X,Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x,y)} = \sum_{x,y} p(x) p(y) \frac{1}{p(x) p(y)} =\\ =\sum_{x,y} p(x) p(y) \left( \log \frac{1}{p(x)} + \log \frac{1}{p(y)} \right) =\\ = \sum_{x,y} p(x) p(y) \log \frac{1}{p(x)} + \sum_{x,y} p(x) p(y) \log\frac{1}{p(y)} =\\ = \left( \sum_y p(y) \right) \left( \sum_x p(x) \log \frac{1}{p(x)} \right) + \left( \sum_x p(x) \right) \left( \sum_y p(y) \log \frac{1}{p(y)} \right) =\\ = H(X) + H(Y).


3. Twierdzenie#1

H(X,Y)H(X)+H(Y) H(X,Y) \le H(X) + H(Y)

Ponadto mamy tutaj równość, wtedy i tylko wtedy gdy zmienne losowe są niezależne.

3.1. D-d

H(X,Y)=x,yp(x,y)log1p(x,y) H(X,Y) = \sum_{x,y} p(x,y) \log\frac{1}{p(x,y)}

Wcześniej wyrachowaliśmy, że

H(X)+H(Y)=x,yp(x)p(y)log1p(x)p(y)==xp(x)log1p(x)+yp(y)log1p(y)==x,yp(x,y)log1p(x)+x,yp(x,y)log1p(y)=() H(X) + H(Y) = \sum_{x,y} p(x) p(y) \log \frac{1}{p(x) p(y)} =\\ = \sum_x p(x) \log \frac{1}{p(x)} + \sum_{y} p(y) \log\frac{1}{p(y)} =\\ = \sum_{x,y} p(x,y) \log\frac{1}{p(x)} + \sum_{x,y} p(x,y) \log \frac{1}{p(y)} = (*)

Tutaj korzystamy z naturalnego faktu, że

p(x)=yp(x,y). p(x) = \sum_y p(x,y).

Dalej:

x,yp(x,y)(log1p(x)+log1p(y))=x,yp(x,y)log1p(x)p(y) \sum_{x,y} p(x,y) \left( \log \frac{1}{p(x)} + \log \frac{1}{p(y)} \right) = \\[10pt] \sum_{x,y}p(x,y) \log \frac{1}{p(x) p(y)}

Mamy też:

x,yp(x,y)=1x,yp(x)p(y)=1 \sum_{x,y} p(x,y) = 1 \\[10pt] \sum_{x,y} p(x) p(y) = 1

Z twierdzenia (o pN,qN,p_N, q_N, \dots) mamy H(X,Y)H(X)+H(Y)H(X,Y) \le H(X) + H(Y).

\square


Ponadto

H(X,Y)=H(X)+H(Y) H(X,Y) = H(X) + H(Y)

wtedy i tylko wtedy, gdy (pN=qN)(p_N = q_N):

p(x,y)=p(x)p(y) p(x,y) = p(x) p(y)

co oznacza, że zmienne XX i YY są niezależne.

\square


4. DEF: Informacja wzajemna zmiennych losowych

Informacją wzajemną zmiennych X,YX,Y nazywamy

I(X,Y)=H(X)+H(Y)H(X,Y). I(X,Y) = H(X) + H(Y) - H(X,Y).

4.1. Fakt#1 (oczywisty)

I(X,Y)=0    X,Y są niezalez˙ne I(X,Y) = 0 \iff X,Y \text{ są niezależne}

4.2. Fakt#2 (oczywisty)

I(X,Y)0. I(X,Y) \ge 0.

4.3. Fakt#3 (oczywisty)

I(X,X)=H(X)+H(X)H(X,X)=H(X). I(X,X) = H(X) + H(X) - H(X,X) = H(X).


4.4. Równoważnie

I(X,Y)=x,yp(x,y)log1p(x)p(y)+x,yp(x,y)log1p(x,y)==x,yp(x,y)logp(x,y)p(x)p(y) I(X,Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x) p(y)} + \sum_{x,y} p(x,y) \log \frac{1}{p(x,y)} =\\ = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x) p(y)}


5. Odległość Kullbacha-Leiblera

D(pq)=aAp(a)logp(a)q(a) D(p || q) = \sum_{a \in A} p(a) \log \frac{p(a)}{q(a)}

gdzie AA to skończona przestrzeń probabilistyczna.

(A,p),(A,q),F=P(A) (A, p), \enspace (A, q), \enspace \mathcal{F} = \mathcal{P}(A)

W I(X,Y)I(X,Y) mamy dwie funkcje prawdopodobieństw na zbiorze X×Y\mathcal{X} \times \mathcal{Y}:

p1({(x,y)})=p1(x,y)=p(x,y)p2(x,y)=p(x)p(y) \begin{aligned} {p_1(\{(x,y)\})} = p_1(x,y) &= p(x,y)\\ p_2(x,y) &= p(x) p(y) \end{aligned}

Mamy D(pq)0D(p || q) \ge 0 oraz D(pq)=0    p=qD(p || q) = 0 \iff p = q.

Czy funkcja D()D( \cdot || \cdot ) ma coś jeszcze wspólnego z metryką?


6. DEF: Entropia warunkowa

Mierzymy ilość informacji potrzebną do odkodowania XX jeśli znamy YY.

Entropię warunkową XX od YY definiujemy przez

H(XY)=yYp(y)H(Xy), H(X | Y) = \sum_{y \in \mathcal{Y}} p(y) H(X | y),

gdzie H(Xy)=xXp(xy)log1p(xy) H(X | y) = \sum_{x \in \mathcal{X}} p(x | y) \log \frac{1}{p(x | y)}

Równoważnie:

H(XY)=x,yp(y)p(xy)log1p(xy)==x,yp(x,y)log1p(xy), H(X | Y) = \sum_{x,y} p(y) p(x | y) \log \frac{1}{p(x | y)} =\\ = \sum_{x,y} p(x,y) \log \frac{1}{p(x | y)},

bo warto pamiętać, że:


6.1. Przykład (oczywisty)

H(XX)=xXp(x)xXp(xx)log1p(xx)=(), H(X | X) = \sum_{x \in \mathcal{X}} p(x) \sum_{x' \in \mathcal{X}} p(x'|x) \log\frac{1}{p(x'|x)} = (*), ale najpierw p(xx)=P(X=xX=x)={1x=x0xx p(x'|x) = P(X = x' | X = x) = \begin{cases} 1 & x' = x\\ 0 & x' \neq x\\ \end{cases}

Czyli ()=xXp(x)0=0. (*) = \sum_{x \in \mathcal{X}} p(x) \cdot 0 = 0.


7. Fakt#4

H(X,Y)=H(XY)+H(Y). H(X,Y) = H(X | Y) + H(Y).

7.1. D-d

H(XY)+H(Y)=x,yp(x,y)log1p(xy)+x,yp(x,y)log1p(y)=x,yp(x,y)log1p(xy)p(y) H(X | Y) + H(Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x | y)} + \sum_{x,y} p(x,y) \log \frac{1}{p(y)} =\\ \sum_{x,y} p(x,y) \log \frac{1}{p(x | y) \cdot p(y)}


8. Reguła łańcucha

H(X,Y)=H(XY)+H(Y). H(X,Y) = H(X|Y) + H(Y).

8.1. Fakt#5

I(X,Y)=H(X)H(XY) I(X,Y) = H(X) - H(X|Y) czyli na jak dużo nam pozwala YY, żeby zrozumieć XX.

8.1.1. D-d

I(X,Y)=H(X)+H(Y)H(X,Y)=() I(X,Y) = H(X) + H(Y) - H(X,Y) = (*) wykorzystujemy regułę łańcucha H(X)+H(Y)H(XY)H(Y)=H(X)H(XY) H(X) + H(Y) - H(X|Y) - H(Y) = H(X) - H(X|Y)

\square


9. Pomniejsze uwagi

  1. H(X,Y)=H(Y,X)H(X,Y) = H(Y,X)
  2. I(X,Y)=I(Y,X)I(X,Y) = I(Y,X)

Wnioski:

  1. I(X,Y)=H(Y)H(YX)I(X,Y) = H(Y) - H(Y|X)
  2. I(X,Y)min{H(X),H(Y)}I(X,Y) \le \min\{H(X), H(Y)\}

10. Diagram Vienna


11. Trzy zmienne

H(X,Y,Z)=H(X,Y;Z)=H(X;Y,Z). H(X,Y,Z) = H(X,Y;Z) = H(X;Y,Z).

Czyli x,y,zp(x,y,z)log1p(x,y,z)=x,yzp((x,y),z)log1p((x,y),z) \sum_{x,y,z} p(x,y,z) \log\frac{1}{p(x,y,z)} = \sum_{x,y} \sum_z p((x,y), z) \log \frac{1}{p((x,y),z)}

p(x,y,z)=P(X=xY=yZ=z)=P((X,Y)=(x,y)Z=z)=p((x,y),z) p(x,y,z) = P(X = x \land Y = y \land Z = z) = \\[10pt] P((X,Y) = (x,y) \land Z = z) = p((x,y),z)

Ale w przypadku II sytuacja się zmienia!


12. Twierdzenie (reguła łańcucha dla entropii łącznej)

H(X1,X2,,Xm)=i=1nH(XiXi+1,,Xn)H(Xi(Hi+1,,X1))=() H(X_1, X_2, \dots, X_m) = \sum_{i=1}^n \underbrace{H(X_i | X_{i+1}, \dots, X_n)}_{H(X_i | (H_{i+1}, \dots, X_1))} = (*)

()=i=1nH(XiXi1,,X1) (*) = \sum_{i=1}^n H(X_i | X_{i-1}, \dots, X_1)

12.1. D-d

indukcja względem nn

  1. n=1n = 1

    H(X1)=i=11H(XiXi+1,,X1)=H(X1). H(X_1) = \sum_{i=1}^1 H(X_i | X_{i+1}, \dots, X_1) = H(X_1).

  2. n=2n = 2

    H(X1,X2)=H(X1X2)+H(X2)=() H(X_1, X_2) = H(X_1 | X_2) + H(X_2) = (*) (reguła łańcucha)

    alternatywnie: ()=H(X1)+H(X2X1) (*) = H(X_1) + H(X_2 | X_1)

  3. nn+1n \Rightarrow n+1

    H(X1;X2,,Xn;Xn+1)=() H(X_1; X_2, \dots, X_n; X_{n+1}) = (*) grupujemy nn ostatnich zmiennych (oddzielamy pierwszą od reszty) ()=H(X1X2,,Xn,Xn+1)+H(X2,,Xn,Xn+1)=() (*) = H(X_1 | X_2, \dots, X_{n}, X_{n+1}) + H(X_2, \dots, X_n, X_{n+1}) = (*) wykorzystujemy założenie indukcyjne dla ciągu X2,,Xn+1X_2,\dots,X_{n+1} ()=H(X1X2,,Xn+1)+H(X2X3,X4,,Xn+1)++H(X3X4,,Xn+1)++H(X4X5,,Xn+1)++H(XnXn+1)++H(Xn+1)=i=1n+1H(XiXi+1,,Xn+1) \begin{aligned} (*) = H(X_1 | X_2, \dots, X_{n+1}) &+ H(X_2 | X_3, X_4, \dots, X_{n+1}) +\\ &+ H(X_3 | X_4, \dots, X_{n+1}) +\\ &+ H(X_4 | X_5, \dots, X_{n+1}) +\\ &\dots\\ &+ H(X_n | X_{n+1}) +\\ &+ H(X_{n+1}) = \sum_{i=1}^{n+1} H(X_i | X_{i+1}, \dots, X_{n+1}) \end{aligned}


13. Twierdzenie (reguła łańcucha dla entropii warunkowej)

H(X1,X2,,XnY)=i=1nH(XiXi+1,,Xn,Y)=i=1nH(X1Xi1,,X1,Y) H(X_1, X_2, \dots, X_n | Y) = \sum_{i=1}^n H(X_i | X_{i+1}, \dots, X_n, Y) = \sum_{i=1}^n H(X_1| X_{i-1}, \dots, X_1, Y)