Miara ilości informacji
Mamy zbiór X N-elementowy (elementy X są jednakowo prawdopodobne)
IH(X)=log2N
1. „Addytywność” owej miary
X={x1,x2,…,xN⋅M} ∣X∣=N⋅M
X={X1,X2,…,XM}
X1={x1,…,xN}
Xj={x(j−1)⋅N+1,…,x(j−1)⋅N+N}
…
XM
IH(Xj)=log2N
IH(X)=log2M
IH(X)=log2(NM)=log2N+log2M=IH(Xj)+IH(X).
X={X1,X2,…,XN}
X=⋃˙i=1NXi ∣Xi∣=Mi (w całym X elementy są jednakowo prawdopodobne)
IH(Xj)=log2Mj ∣ IH(X)=log2(∑i=1NMi)
I?j(X)=IH(X)−IH(Xj)=log2(Mj∑i=1N)=log2pj1 gdzie pj to p-o zdarzenia Xj.
I:X→R gdzie X={x1,…,xN} jest dyskretną przestrzenią probabilistyczną
P(xi)=pi I(xi)=−log2pi.
2.1. Uwaga
Ową definicję stosujemy też gdy X jest (dyskretną) zmienną losową.
2.2. Uwaga
I:(0,1]→R też ma sens.
I(xi) „=” I(pi)=−log2pi
2.3. Własności I
- I(1)=0,I(21)=1, limi→0+I(p)=+∞
- I(pq)=I(p)+I(q)
mamy zdarzenie X∩Y, gdzie X,Y niezależne, P(X)=p,P(Y)=q
(coś jak „addytywność” wcześniej)
- I jest różniczkowalna
3. Twierdzenie#1
Jeśli I:(0,1]→R jest różniczkowalną funkcją spełniającą 2.3.2. oraz I(21)=1,
to I(p)=−log2p.
3.1. D-d Twierdzenie#1
I′(p)=ϵ→0−limϵI(p+ϵ)−I(p)−I(p)=ϵ→0−limϵpI(p+ϵp)−I(p)=(poniewaz˙ 2.3.2.)ϵ→0−limϵpI(p)+I(1+ϵ)−I(p)=p1ϵ→0−limϵI(1+ϵ)
3.1.1. Eureka#1
lim istnieje!
3.1.2. Eureka#2
limϵ→0−I(1+ϵ)=0, czyli z ciągłości I(1)=0.
3.1.3. Kontynuacja D-d Twierdzenie#1
Niech C=limϵ→0−ϵI(1+ϵ)
I′(p)=p1⋅C
stąd I(p)=∫pCdp=C⋅lnp+D
Z Eureka#2 mamy I(1)=0=C⋅ln(1)+D=0 czyli D=0.
Za to I(21)=1=C⋅ln(21) czyli C=−ln21.
3.1.4. Zatem
I(p)=ln2−lnp=ln2−ln2log2p=−log2p.
■