1. Zmienna losowa
Myślimy tu o entropii zmiennej losowej.
X : Ω → X ( u nas X jest sko n ˊ czona )
X: \Omega \to \mathcal{X} \quad (\text{u nas } \mathcal{X} \text{ jest skończona})
X : Ω → X ( u nas X jest sko n ˊ czona )
Zamiast P ( X = x ) , x ∈ X P(X = x), \enspace x \in \mathcal{X} P ( X = x ) , x ∈ X będziemy pisać p ( x ) p(x) p ( x ) .
H ( X ) = ∑ x ∈ X p ( x ) log 1 p ( x ) .
H(X) = \sum_{x \in \mathcal{X}} p(x) \log \frac{1}{p(x)}.
H ( X ) = x ∈ X ∑ p ( x ) log p ( x ) 1 .
2. DEF: Entropia łączna
Mamy zmienne losowe:
X : Ω → X , Y : Ω → Y .
X: \Omega \to \mathcal{X}, \enspace Y: \Omega \to \mathcal{Y}.
X : Ω → X , Y : Ω → Y .
Przez entropię łączną rozumiemy
H ( X , Y ) = ∑ x ∈ X ∑ y ∈ Y p ( x , y ) log 1 p ( x , y )
H(X,Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x,y) \log \frac{1}{p(x,y)}
H ( X , Y ) = x ∈ X ∑ y ∈ Y ∑ p ( x , y ) log p ( x , y ) 1
gdzie
p ( x , y ) = P ( X = x , Y = y ) = P ( X = x ∧ Y = y ) .
p(x,y) = P(X = x, Y = y) = P(X = x \land Y = y).
p ( x , y ) = P ( X = x , Y = y ) = P ( X = x ∧ Y = y ) .
Można myśleć o tym jak o zmiennej losowej
T : Ω → X × Y T ( ω ) = ( X ( ω ) , Y ( ω ) ) H ( X , Y ) = H ( T )
T: \Omega \to \mathcal{X} \times \mathcal{Y}
\\[10pt]
T(\omega) = \left( X(\omega), Y(\omega) \right)
\\[10pt]
H(X,Y) = H(T)
T : Ω → X × Y T ( ω ) = ( X ( ω ) , Y ( ω ) ) H ( X , Y ) = H ( T )
Umawiamy się, że 0 ⋅ log 1 0 = 0 0 \cdot \log \frac{1}{0} = 0 0 ⋅ log 0 1 = 0 .
2.1. Przykład (oczywisty)
Mamy H ( X , X ) = ∑ x ∈ X ∑ x ′ ∈ X p ( x , x ′ ) ⋅ log 1 p ( x , x ′ ) = ( ∗ )
H(X,X) = \sum_{x\in\mathcal{X}} \sum_{x' \in \mathcal{X}} p(x,x') \cdot \log \frac{1}{p(x,x')} = (*)
H ( X , X ) = x ∈ X ∑ x ′ ∈ X ∑ p ( x , x ′ ) ⋅ log p ( x , x ′ ) 1 = ( ∗ ) gdzie p ( x , x ′ ) = P ( X = X ∧ X = x ′ ) = { 0 x ≠ x ′ p ( x ) x = x ′
p(x,x') = P(X = X \land X = x') =
\begin{cases}
0 & x \neq x'\\
p(x) & x = x'\\
\end{cases}
p ( x , x ′ ) = P ( X = X ∧ X = x ′ ) = { 0 p ( x ) x = x ′ x = x ′ co daje nam ( ∗ ) = ∑ x ∈ X p ( x ) log 1 p ( x ) = H ( X ) .
(*) = \sum_{x\in\mathcal{X}} p(x) \log \frac{1}{p(x)} = H(X).
( ∗ ) = x ∈ X ∑ p ( x ) log p ( x ) 1 = H ( X ) .
2.2. Przykład
Załóżmy, że X X X i Y Y Y są niezależne, czyli
P ( X = x , Y = y ) = P ( X = x ) ⋅ P ( Y = y ) , p ( x , y ) = p ( x ) ⋅ p ( y ) ,
P(X = x, Y = y) = P(X = x) \cdot P(Y = y), \quad p(x,y) = p(x) \cdot p(y),
P ( X = x , Y = y ) = P ( X = x ) ⋅ P ( Y = y ) , p ( x , y ) = p ( x ) ⋅ p ( y ) ,
wówczas
H ( X , Y ) = ∑ x , y p ( x , y ) log 1 p ( x , y ) = ∑ x , y p ( x ) p ( y ) 1 p ( x ) p ( y ) = = ∑ x , y p ( x ) p ( y ) ( log 1 p ( x ) + log 1 p ( y ) ) = = ∑ x , y p ( x ) p ( y ) log 1 p ( x ) + ∑ x , y p ( x ) p ( y ) log 1 p ( y ) = = ( ∑ y p ( y ) ) ( ∑ x p ( x ) log 1 p ( x ) ) + ( ∑ x p ( x ) ) ( ∑ y p ( y ) log 1 p ( y ) ) = = H ( X ) + H ( Y ) .
H(X,Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x,y)} = \sum_{x,y} p(x) p(y) \frac{1}{p(x) p(y)} =\\
=\sum_{x,y} p(x) p(y) \left( \log \frac{1}{p(x)} + \log \frac{1}{p(y)} \right) =\\
= \sum_{x,y} p(x) p(y) \log \frac{1}{p(x)} + \sum_{x,y} p(x) p(y) \log\frac{1}{p(y)} =\\
= \left( \sum_y p(y) \right) \left( \sum_x p(x) \log \frac{1}{p(x)} \right) + \left( \sum_x p(x) \right) \left( \sum_y p(y) \log \frac{1}{p(y)} \right) =\\
= H(X) + H(Y).
H ( X , Y ) = x , y ∑ p ( x , y ) log p ( x , y ) 1 = x , y ∑ p ( x ) p ( y ) p ( x ) p ( y ) 1 = = x , y ∑ p ( x ) p ( y ) ( log p ( x ) 1 + log p ( y ) 1 ) = = x , y ∑ p ( x ) p ( y ) log p ( x ) 1 + x , y ∑ p ( x ) p ( y ) log p ( y ) 1 = = ( y ∑ p ( y ) ) ( x ∑ p ( x ) log p ( x ) 1 ) + ( x ∑ p ( x ) ) ( y ∑ p ( y ) log p ( y ) 1 ) = = H ( X ) + H ( Y ) .
3. Twierdzenie#1
H ( X , Y ) ≤ H ( X ) + H ( Y )
H(X,Y) \le H(X) + H(Y)
H ( X , Y ) ≤ H ( X ) + H ( Y )
Ponadto mamy tutaj równość, wtedy i tylko wtedy gdy zmienne losowe są niezależne.
3.1. D-d
H ( X , Y ) = ∑ x , y p ( x , y ) log 1 p ( x , y )
H(X,Y) = \sum_{x,y} p(x,y) \log\frac{1}{p(x,y)}
H ( X , Y ) = x , y ∑ p ( x , y ) log p ( x , y ) 1
Wcześniej wyrachowaliśmy , że
H ( X ) + H ( Y ) = ∑ x , y p ( x ) p ( y ) log 1 p ( x ) p ( y ) = = ∑ x p ( x ) log 1 p ( x ) + ∑ y p ( y ) log 1 p ( y ) = = ∑ x , y p ( x , y ) log 1 p ( x ) + ∑ x , y p ( x , y ) log 1 p ( y ) = ( ∗ )
H(X) + H(Y) = \sum_{x,y} p(x) p(y) \log \frac{1}{p(x) p(y)} =\\
= \sum_x p(x) \log \frac{1}{p(x)} + \sum_{y} p(y) \log\frac{1}{p(y)} =\\
= \sum_{x,y} p(x,y) \log\frac{1}{p(x)} + \sum_{x,y} p(x,y) \log \frac{1}{p(y)} = (*)
H ( X ) + H ( Y ) = x , y ∑ p ( x ) p ( y ) log p ( x ) p ( y ) 1 = = x ∑ p ( x ) log p ( x ) 1 + y ∑ p ( y ) log p ( y ) 1 = = x , y ∑ p ( x , y ) log p ( x ) 1 + x , y ∑ p ( x , y ) log p ( y ) 1 = ( ∗ )
Tutaj korzystamy z naturalnego faktu, że
p ( x ) = ∑ y p ( x , y ) .
p(x) = \sum_y p(x,y).
p ( x ) = y ∑ p ( x , y ) .
Dalej:
∑ x , y p ( x , y ) ( log 1 p ( x ) + log 1 p ( y ) ) = ∑ x , y p ( x , y ) log 1 p ( x ) p ( y )
\sum_{x,y} p(x,y) \left( \log \frac{1}{p(x)} + \log \frac{1}{p(y)} \right) =
\\[10pt]
\sum_{x,y}p(x,y) \log \frac{1}{p(x) p(y)}
x , y ∑ p ( x , y ) ( log p ( x ) 1 + log p ( y ) 1 ) = x , y ∑ p ( x , y ) log p ( x ) p ( y ) 1
Mamy też:
∑ x , y p ( x , y ) = 1 ∑ x , y p ( x ) p ( y ) = 1
\sum_{x,y} p(x,y) = 1
\\[10pt]
\sum_{x,y} p(x) p(y) = 1
x , y ∑ p ( x , y ) = 1 x , y ∑ p ( x ) p ( y ) = 1
Z twierdzenia (o p N , q N , … p_N, q_N, \dots p N , q N , … ) mamy H ( X , Y ) ≤ H ( X ) + H ( Y ) H(X,Y) \le H(X) + H(Y) H ( X , Y ) ≤ H ( X ) + H ( Y ) .
□ \square □
Ponadto
H ( X , Y ) = H ( X ) + H ( Y )
H(X,Y) = H(X) + H(Y)
H ( X , Y ) = H ( X ) + H ( Y )
wtedy i tylko wtedy, gdy ( p N = q N ) (p_N = q_N) ( p N = q N ) :
p ( x , y ) = p ( x ) p ( y )
p(x,y) = p(x) p(y)
p ( x , y ) = p ( x ) p ( y )
co oznacza, że zmienne X X X i Y Y Y są niezależne.
□ \square □
Informacją wzajemną zmiennych X , Y X,Y X , Y nazywamy
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) .
I(X,Y) = H(X) + H(Y) - H(X,Y).
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) .
4.1. Fakt#1 (oczywisty)
I ( X , Y ) = 0 ⟺ X , Y są niezale z ˙ ne
I(X,Y) = 0 \iff X,Y \text{ są niezależne}
I ( X , Y ) = 0 ⟺ X , Y s ą niezale z ˙ ne
4.2. Fakt#2 (oczywisty)
I ( X , Y ) ≥ 0.
I(X,Y) \ge 0.
I ( X , Y ) ≥ 0 .
4.3. Fakt#3 (oczywisty)
I ( X , X ) = H ( X ) + H ( X ) − H ( X , X ) = H ( X ) .
I(X,X) = H(X) + H(X) - H(X,X) = H(X).
I ( X , X ) = H ( X ) + H ( X ) − H ( X , X ) = H ( X ) .
4.4. Równoważnie
I ( X , Y ) = ∑ x , y p ( x , y ) log 1 p ( x ) p ( y ) + ∑ x , y p ( x , y ) log 1 p ( x , y ) = = ∑ x , y p ( x , y ) log p ( x , y ) p ( x ) p ( y )
I(X,Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x) p(y)} + \sum_{x,y} p(x,y) \log \frac{1}{p(x,y)} =\\
= \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x) p(y)}
I ( X , Y ) = x , y ∑ p ( x , y ) log p ( x ) p ( y ) 1 + x , y ∑ p ( x , y ) log p ( x , y ) 1 = = x , y ∑ p ( x , y ) log p ( x ) p ( y ) p ( x , y )
5. Odległość Kullbacha-Leiblera
D ( p ∣ ∣ q ) = ∑ a ∈ A p ( a ) log p ( a ) q ( a )
D(p || q) = \sum_{a \in A} p(a) \log \frac{p(a)}{q(a)}
D ( p ∣ ∣ q ) = a ∈ A ∑ p ( a ) log q ( a ) p ( a )
gdzie A A A to skończona przestrzeń probabilistyczna.
( A , p ) , ( A , q ) , F = P ( A )
(A, p), \enspace (A, q), \enspace \mathcal{F} = \mathcal{P}(A)
( A , p ) , ( A , q ) , F = P ( A )
W I ( X , Y ) I(X,Y) I ( X , Y ) mamy dwie funkcje prawdopodobieństw na zbiorze X × Y \mathcal{X} \times \mathcal{Y} X × Y :
p 1 ( { ( x , y ) } ) = p 1 ( x , y ) = p ( x , y ) p 2 ( x , y ) = p ( x ) p ( y )
\begin{aligned}
{p_1(\{(x,y)\})} = p_1(x,y) &= p(x,y)\\
p_2(x,y) &= p(x) p(y)
\end{aligned}
p 1 ( { ( x , y ) } ) = p 1 ( x , y ) p 2 ( x , y ) = p ( x , y ) = p ( x ) p ( y )
Mamy D ( p ∣ ∣ q ) ≥ 0 D(p || q) \ge 0 D ( p ∣ ∣ q ) ≥ 0 oraz D ( p ∣ ∣ q ) = 0 ⟺ p = q D(p || q) = 0 \iff p = q D ( p ∣ ∣ q ) = 0 ⟺ p = q .
Czy funkcja D ( ⋅ ∣ ∣ ⋅ ) D( \cdot || \cdot ) D ( ⋅ ∣ ∣ ⋅ ) ma coś jeszcze wspólnego z metryką?
6. DEF: Entropia warunkowa
Mierzymy ilość informacji potrzebną do odkodowania X X X jeśli znamy Y Y Y .
Entropię warunkową X X X od Y Y Y definiujemy przez
H ( X ∣ Y ) = ∑ y ∈ Y p ( y ) H ( X ∣ y ) ,
H(X | Y) = \sum_{y \in \mathcal{Y}} p(y) H(X | y),
H ( X ∣ Y ) = y ∈ Y ∑ p ( y ) H ( X ∣ y ) ,
gdzie H ( X ∣ y ) = ∑ x ∈ X p ( x ∣ y ) log 1 p ( x ∣ y )
H(X | y) = \sum_{x \in \mathcal{X}} p(x | y) \log \frac{1}{p(x | y)}
H ( X ∣ y ) = x ∈ X ∑ p ( x ∣ y ) log p ( x ∣ y ) 1
Równoważnie:
H ( X ∣ Y ) = ∑ x , y p ( y ) p ( x ∣ y ) log 1 p ( x ∣ y ) = = ∑ x , y p ( x , y ) log 1 p ( x ∣ y ) ,
H(X | Y) = \sum_{x,y} p(y) p(x | y) \log \frac{1}{p(x | y)} =\\
= \sum_{x,y} p(x,y) \log \frac{1}{p(x | y)},
H ( X ∣ Y ) = x , y ∑ p ( y ) p ( x ∣ y ) log p ( x ∣ y ) 1 = = x , y ∑ p ( x , y ) log p ( x ∣ y ) 1 ,
bo warto pamiętać, że:
p ( x ∣ y ) = P ( X = x ∣ Y = y ) p(x | y) = P(X = x | Y = y) p ( x ∣ y ) = P ( X = x ∣ Y = y ) ,
p ( y ) ⋅ p ( x ∣ y ) = p ( y ) ⋅ p ( x , y ) p ( y ) p(y) \cdot p(x | y) = p(y) \cdot \frac{p(x,y)}{p(y)} p ( y ) ⋅ p ( x ∣ y ) = p ( y ) ⋅ p ( y ) p ( x , y ) .
6.1. Przykład (oczywisty)
H ( X ∣ X ) = ∑ x ∈ X p ( x ) ∑ x ′ ∈ X p ( x ′ ∣ x ) log 1 p ( x ′ ∣ x ) = ( ∗ ) ,
H(X | X) = \sum_{x \in \mathcal{X}} p(x) \sum_{x' \in \mathcal{X}} p(x'|x) \log\frac{1}{p(x'|x)} = (*),
H ( X ∣ X ) = x ∈ X ∑ p ( x ) x ′ ∈ X ∑ p ( x ′ ∣ x ) log p ( x ′ ∣ x ) 1 = ( ∗ ) , ale najpierw p ( x ′ ∣ x ) = P ( X = x ′ ∣ X = x ) = { 1 x ′ = x 0 x ′ ≠ x
p(x'|x) = P(X = x' | X = x) =
\begin{cases}
1 & x' = x\\
0 & x' \neq x\\
\end{cases}
p ( x ′ ∣ x ) = P ( X = x ′ ∣ X = x ) = { 1 0 x ′ = x x ′ = x
Czyli ( ∗ ) = ∑ x ∈ X p ( x ) ⋅ 0 = 0.
(*) = \sum_{x \in \mathcal{X}} p(x) \cdot 0 = 0.
( ∗ ) = x ∈ X ∑ p ( x ) ⋅ 0 = 0 .
7. Fakt#4
H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) .
H(X,Y) = H(X | Y) + H(Y).
H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) .
7.1. D-d
H ( X ∣ Y ) + H ( Y ) = ∑ x , y p ( x , y ) log 1 p ( x ∣ y ) + ∑ x , y p ( x , y ) log 1 p ( y ) = ∑ x , y p ( x , y ) log 1 p ( x ∣ y ) ⋅ p ( y )
H(X | Y) + H(Y) = \sum_{x,y} p(x,y) \log \frac{1}{p(x | y)} + \sum_{x,y} p(x,y) \log \frac{1}{p(y)} =\\
\sum_{x,y} p(x,y) \log \frac{1}{p(x | y) \cdot p(y)}
H ( X ∣ Y ) + H ( Y ) = x , y ∑ p ( x , y ) log p ( x ∣ y ) 1 + x , y ∑ p ( x , y ) log p ( y ) 1 = x , y ∑ p ( x , y ) log p ( x ∣ y ) ⋅ p ( y ) 1
8. Reguła łańcucha
H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) .
H(X,Y) = H(X|Y) + H(Y).
H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) .
8.1. Fakt#5
I ( X , Y ) = H ( X ) − H ( X ∣ Y )
I(X,Y) = H(X) - H(X|Y)
I ( X , Y ) = H ( X ) − H ( X ∣ Y ) czyli na jak dużo nam pozwala Y Y Y , żeby zrozumieć X X X .
8.1.1. D-d
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = ( ∗ )
I(X,Y) = H(X) + H(Y) - H(X,Y) = (*)
I ( X , Y ) = H ( X ) + H ( Y ) − H ( X , Y ) = ( ∗ ) wykorzystujemy regułę łańcucha H ( X ) + H ( Y ) − H ( X ∣ Y ) − H ( Y ) = H ( X ) − H ( X ∣ Y )
H(X) + H(Y) - H(X|Y) - H(Y) = H(X) - H(X|Y)
H ( X ) + H ( Y ) − H ( X ∣ Y ) − H ( Y ) = H ( X ) − H ( X ∣ Y )
□ \square □
9. Pomniejsze uwagi
H ( X , Y ) = H ( Y , X ) H(X,Y) = H(Y,X) H ( X , Y ) = H ( Y , X )
I ( X , Y ) = I ( Y , X ) I(X,Y) = I(Y,X) I ( X , Y ) = I ( Y , X )
Wnioski:
I ( X , Y ) = H ( Y ) − H ( Y ∣ X ) I(X,Y) = H(Y) - H(Y|X) I ( X , Y ) = H ( Y ) − H ( Y ∣ X )
I ( X , Y ) ≤ min { H ( X ) , H ( Y ) } I(X,Y) \le \min\{H(X), H(Y)\} I ( X , Y ) ≤ min { H ( X ) , H ( Y ) }
10. Diagram Vienna
11. Trzy zmienne
H ( X , Y , Z ) = H ( X , Y ; Z ) = H ( X ; Y , Z ) .
H(X,Y,Z) = H(X,Y;Z) = H(X;Y,Z).
H ( X , Y , Z ) = H ( X , Y ; Z ) = H ( X ; Y , Z ) .
Czyli ∑ x , y , z p ( x , y , z ) log 1 p ( x , y , z ) = ∑ x , y ∑ z p ( ( x , y ) , z ) log 1 p ( ( x , y ) , z )
\sum_{x,y,z} p(x,y,z) \log\frac{1}{p(x,y,z)} = \sum_{x,y} \sum_z p((x,y), z) \log \frac{1}{p((x,y),z)}
x , y , z ∑ p ( x , y , z ) log p ( x , y , z ) 1 = x , y ∑ z ∑ p ( ( x , y ) , z ) log p ( ( x , y ) , z ) 1
p ( x , y , z ) = P ( X = x ∧ Y = y ∧ Z = z ) = P ( ( X , Y ) = ( x , y ) ∧ Z = z ) = p ( ( x , y ) , z )
p(x,y,z) = P(X = x \land Y = y \land Z = z) =
\\[10pt]
P((X,Y) = (x,y) \land Z = z) = p((x,y),z)
p ( x , y , z ) = P ( X = x ∧ Y = y ∧ Z = z ) = P ( ( X , Y ) = ( x , y ) ∧ Z = z ) = p ( ( x , y ) , z )
Ale w przypadku I I I sytuacja się zmienia!
12. Twierdzenie (reguła łańcucha dla entropii łącznej)
H ( X 1 , X 2 , … , X m ) = ∑ i = 1 n H ( X i ∣ X i + 1 , … , X n ) ⏟ H ( X i ∣ ( H i + 1 , … , X 1 ) ) = ( ∗ )
H(X_1, X_2, \dots, X_m) = \sum_{i=1}^n \underbrace{H(X_i | X_{i+1}, \dots, X_n)}_{H(X_i | (H_{i+1}, \dots, X_1))} = (*)
H ( X 1 , X 2 , … , X m ) = i = 1 ∑ n H ( X i ∣ ( H i + 1 , … , X 1 ) ) H ( X i ∣ X i + 1 , … , X n ) = ( ∗ )
( ∗ ) = ∑ i = 1 n H ( X i ∣ X i − 1 , … , X 1 )
(*) = \sum_{i=1}^n H(X_i | X_{i-1}, \dots, X_1)
( ∗ ) = i = 1 ∑ n H ( X i ∣ X i − 1 , … , X 1 )
12.1. D-d
indukcja względem n n n
n = 1 n = 1 n = 1
H ( X 1 ) = ∑ i = 1 1 H ( X i ∣ X i + 1 , … , X 1 ) = H ( X 1 ) .
H(X_1) = \sum_{i=1}^1 H(X_i | X_{i+1}, \dots, X_1) = H(X_1).
H ( X 1 ) = i = 1 ∑ 1 H ( X i ∣ X i + 1 , … , X 1 ) = H ( X 1 ) .
n = 2 n = 2 n = 2
H ( X 1 , X 2 ) = H ( X 1 ∣ X 2 ) + H ( X 2 ) = ( ∗ )
H(X_1, X_2) = H(X_1 | X_2) + H(X_2) = (*)
H ( X 1 , X 2 ) = H ( X 1 ∣ X 2 ) + H ( X 2 ) = ( ∗ ) (reguła łańcucha )
alternatywnie: ( ∗ ) = H ( X 1 ) + H ( X 2 ∣ X 1 )
(*) = H(X_1) + H(X_2 | X_1)
( ∗ ) = H ( X 1 ) + H ( X 2 ∣ X 1 )
n ⇒ n + 1 n \Rightarrow n+1 n ⇒ n + 1
H ( X 1 ; X 2 , … , X n ; X n + 1 ) = ( ∗ )
H(X_1; X_2, \dots, X_n; X_{n+1}) = (*)
H ( X 1 ; X 2 , … , X n ; X n + 1 ) = ( ∗ ) grupujemy n n n ostatnich zmiennych (oddzielamy pierwszą od reszty) ( ∗ ) = H ( X 1 ∣ X 2 , … , X n , X n + 1 ) + H ( X 2 , … , X n , X n + 1 ) = ( ∗ )
(*) = H(X_1 | X_2, \dots, X_{n}, X_{n+1}) + H(X_2, \dots, X_n, X_{n+1}) = (*)
( ∗ ) = H ( X 1 ∣ X 2 , … , X n , X n + 1 ) + H ( X 2 , … , X n , X n + 1 ) = ( ∗ ) wykorzystujemy założenie indukcyjne dla ciągu X 2 , … , X n + 1 X_2,\dots,X_{n+1} X 2 , … , X n + 1 ( ∗ ) = H ( X 1 ∣ X 2 , … , X n + 1 ) + H ( X 2 ∣ X 3 , X 4 , … , X n + 1 ) + + H ( X 3 ∣ X 4 , … , X n + 1 ) + + H ( X 4 ∣ X 5 , … , X n + 1 ) + … + H ( X n ∣ X n + 1 ) + + H ( X n + 1 ) = ∑ i = 1 n + 1 H ( X i ∣ X i + 1 , … , X n + 1 )
\begin{aligned}
(*) = H(X_1 | X_2, \dots, X_{n+1}) &+ H(X_2 | X_3, X_4, \dots, X_{n+1}) +\\
&+ H(X_3 | X_4, \dots, X_{n+1}) +\\
&+ H(X_4 | X_5, \dots, X_{n+1}) +\\
&\dots\\
&+ H(X_n | X_{n+1}) +\\
&+ H(X_{n+1}) = \sum_{i=1}^{n+1} H(X_i | X_{i+1}, \dots, X_{n+1})
\end{aligned}
( ∗ ) = H ( X 1 ∣ X 2 , … , X n + 1 ) + H ( X 2 ∣ X 3 , X 4 , … , X n + 1 ) + + H ( X 3 ∣ X 4 , … , X n + 1 ) + + H ( X 4 ∣ X 5 , … , X n + 1 ) + … + H ( X n ∣ X n + 1 ) + + H ( X n + 1 ) = i = 1 ∑ n + 1 H ( X i ∣ X i + 1 , … , X n + 1 )
13. Twierdzenie (reguła łańcucha dla entropii warunkowej)
H ( X 1 , X 2 , … , X n ∣ Y ) = ∑ i = 1 n H ( X i ∣ X i + 1 , … , X n , Y ) = ∑ i = 1 n H ( X 1 ∣ X i − 1 , … , X 1 , Y )
H(X_1, X_2, \dots, X_n | Y) = \sum_{i=1}^n H(X_i | X_{i+1}, \dots, X_n, Y) = \sum_{i=1}^n H(X_1| X_{i-1}, \dots, X_1, Y)
H ( X 1 , X 2 , … , X n ∣ Y ) = i = 1 ∑ n H ( X i ∣ X i + 1 , … , X n , Y ) = i = 1 ∑ n H ( X 1 ∣ X i − 1 , … , X 1 , Y )