对一个离散的概率空间$(\Omega=\{x_1, x_2, \cdots, x_r\}, P)$,概率测度的$P$的墒定义为
$$H=-\sum_{j=1}^rp_j\ln p_j$$
设$\omega=(\omega_1, \omega_2, \cdots, \omega_n)\in \Omega_n$,那么
$$
\begin{align}
P(\omega)&=P(\omega_1)\cdots P(\omega_n)\\
&=p_1^{\nu_1^n(\omega)}\cdots p_r^{\nu_r^n(\omega)}\\
&=\exp(\sum_{j=1}^r\nu_j^n(\omega)\ln p_j)\\
&=\exp(n\sum_{j=1}^r\frac{\nu_j^n(\omega)}{n}\ln p_j)\\
&=\exp(n\sum_{j=1}^rp_j\ln p_j)\exp(n\sum_{j=1}^r(\frac{\nu_j^n(\omega)}{n}-p_j)\ln p_j)
\end{align}
$$
信息熵是随机变量的分布的泛函定义为
$$H=-\sum_{j=1}^rp_j\log_2 p_j$$
It is the number of bits on average required to describe the random variable.比如均匀分布的离散随机变量,取值空间为32个值,每个值的概率为1/32,直观的可以看出需要5bit来描述这个随机变量的取值,这和信息熵公式计算的结果是一致的。
对于一段随机字符,全部的知识是知道每个字符什么时候出现,最少的信息是什么都不知道,知道每个字符出现的概率是部分知识。
熵的含义,如果一个信息源输出字符序列,已知的信息是字符表里每个字符出现的概率,那么检查到一个出现概率很高的字符的时候得到的信息要少。比如a, b构成的10个字符的序列,字符a出现的概率为9/10的,如果第一个出现的字符就是b,那么我们知道后面9个都是a,字符序列完全确定了,可见b出现带来的信息量很大。反过来如果第一个出现的是a,后面9个还是不能确定。
No comments:
Post a Comment