Miara Informacji Hartley’a

by Jerry Sky

2020-10-08

Miara ilości informacji


Mamy zbiór XX NN-elementowy (elementy XX są jednakowo prawdopodobne)

IH(X)=log2NI_H(X) = \log_2N

1. „Addytywność” owej miary

X={x1,x2,,xNM}   X=NMX = \{x_1, x_2, \dots, x_{N\cdot M}\} ~~~ |X| = N\cdot M

X~={X1,X2,,XM}\widetilde{X} = \{X_1, X_2, \dots, X_M\}
X1={x1,,xN}X_1 = \{x_1, \dots, x_N\}
Xj={x(j1)N+1,,x(j1)N+N}X_j = \{x_{(j-1)\cdot N +1}, \dots, x_{(j-1)\cdot N + N}\}
\dotsc
XMX_M

IH(Xj)=log2NI_H(X_j) = \log_2 N
IH(X~)=log2MI_H(\widetilde{X}) = \log_2 M

IH(X)=log2(NM)=log2N+log2M=IH(Xj)+IH(X~).\bold{I_H(X) = \log_2(NM) = \log_2 N + \log_2 M = I_H(X_j) + I_H(\widetilde{X}).}


X~={X1,X2,,XN}\widetilde{X} = \{X_1, X_2, \dots, X_N\}
X=˙i=1NXi   Xi=MiX = \dot{\bigcup}_{i=1}^N X_i ~~~ |X_i| = M_i (w całym XX elementy są jednakowo prawdopodobne)

IH(Xj)=log2Mj      IH(X)=log2(i=1NMi)I_H(X_j) = \log_2 M_j ~~~|~~~ I_H(X) = \log_2(\sum_{i=1}^N M_i)

I?j(X~)=IH(X)IH(Xj)=log2(i=1NMj)=log21pjI_{?j}(\widetilde{X}) = I_H(X) - I_H(X_j) = \log_2\left( \frac{\sum_{i=1}^{N}}{M_j} \right) = \log_2 \frac{1}{p_j} gdzie pjp_j to p-o zdarzenia XjX_j.


2. DEF: Miara ilości informacji

I:XR\bold{I: X \to \mathbb{R}} gdzie X={x1,,xN}X = \{x_1, \dots, x_N\} jest dyskretną przestrzenią probabilistyczną

P(xi)=pi     I(xi)=log2piP(x_i) = p_i ~~~~~ I(x_i) = -\log_2 p_i.

2.1. Uwaga

Ową definicję stosujemy też gdy XX jest (dyskretną) zmienną losową.

2.2. Uwaga

I:(0,1]RI: (0, 1] \to \mathbb{R} też ma sens.

I(xi)  „=”  I(pi)=log2piI(x_i) ~~„=”~~ I(p_i) = -\log_2 p_i

2.3. Własności II

  1. I(1)=0,I(12)=1I(1) = 0, I\left(\frac{1}{2}\right) = 1, limi0+I(p)=+\lim_{i\to 0^+} I(p) = +\infty
  2. I(pq)=I(p)+I(q)I(pq) = I(p) + I(q)
    mamy zdarzenie XYX\cap Y, gdzie X,YX,Y niezależne, P(X)=p,P(Y)=qP(X) = p, P(Y) = q
    (coś jak „addytywność” wcześniej)
  3. II jest różniczkowalna

3. Twierdzenie#1

Jeśli I:(0,1]RI: (0,1] \to \mathbb{R} jest różniczkowalną funkcją spełniającą 2.3.2. oraz I(12)=1I(\frac{1}{2}) = 1,
to I(p)=log2pI(p) = -\log_2p.

3.1. D-d Twierdzenie#1

I(p)=limϵ0I(p+ϵ)I(p)I(p)ϵ=limϵ0I(p+ϵp)I(p)ϵp=(poniewaz˙ 2.3.2.)limϵ0I(p)+I(1+ϵ)I(p)ϵp=1plimϵ0I(1+ϵ)ϵ I'(p) = \lim_{\epsilon \to 0^-} \frac{I(p+\epsilon) - I(p) - I(p)}{\epsilon} =\\ \lim_{\epsilon \to 0^-} \frac{I(p+\epsilon p) - I(p)}{\epsilon p} = \text{(ponieważ 2.3.2.)}\\ \lim_{\epsilon \to 0^-} \frac{I(p) + I(1+\epsilon) - I(p)}{\epsilon p} =\\ \frac{1}{p}\lim_{\epsilon \to 0^-} \frac{I(1+\epsilon)}{\epsilon}

3.1.1. Eureka#1

lim\lim istnieje!

3.1.2. Eureka#2

limϵ0I(1+ϵ)=0\lim_{\epsilon \to 0^-} I(1+\epsilon) = 0, czyli z ciągłości I(1)=0I(1) = 0.

3.1.3. Kontynuacja D-d Twierdzenie#1

Niech C=limϵ0I(1+ϵ)ϵC = \lim_{\epsilon \to 0^-} \frac{I(1+\epsilon)}{\epsilon}

I(p)=1pCI'(p) = \frac{1}{p} \cdot C
stąd I(p)=Cpdp=Clnp+DI(p) = \int{ \frac{C}{p}\, dp} = C\cdot \ln p + D

Z Eureka#2 mamy I(1)=0=Cln(1)+D=0I(1) = 0 = C\cdot \ln(1) + D = 0 czyli D=0D = 0.

Za to I(12)=1=Cln(12)I(\frac{1}{2}) = 1 = C\cdot \ln(\frac{1}{2}) czyli C=1ln2C = -\frac{1}{\ln 2}.

3.1.4. Zatem

I(p)=lnpln2=ln2log2pln2=log2pI(p) = \frac{- \ln p}{\ln 2} = \frac{- \ln 2 \log_2 p}{\ln 2} = -\log_2 p.
\blacksquare