2012/04/15

Entropy

对一个离散的概率空间$(\Omega=\{x_1, x_2, \cdots, x_r\}, P)$,概率测度的$P$的墒定义为 $$H=-\sum_{j=1}^rp_j\ln p_j$$ 设$\omega=(\omega_1, \omega_2, \cdots, \omega_n)\in \Omega_n$,那么 $$ \begin{align} P(\omega)&=P(\omega_1)\cdots P(\omega_n)\\ &=p_1^{\nu_1^n(\omega)}\cdots p_r^{\nu_r^n(\omega)}\\ &=\exp(\sum_{j=1}^r\nu_j^n(\omega)\ln p_j)\\ &=\exp(n\sum_{j=1}^r\frac{\nu_j^n(\omega)}{n}\ln p_j)\\ &=\exp(n\sum_{j=1}^rp_j\ln p_j)\exp(n\sum_{j=1}^r(\frac{\nu_j^n(\omega)}{n}-p_j)\ln p_j) \end{align} $$ 信息熵是随机变量的分布的泛函定义为 $$H=-\sum_{j=1}^rp_j\log_2 p_j$$ It is the number of bits on average required to describe the random variable.比如均匀分布的离散随机变量,取值空间为32个值,每个值的概率为1/32,直观的可以看出需要5bit来描述这个随机变量的取值,这和信息熵公式计算的结果是一致的。

对于一段随机字符,全部的知识是知道每个字符什么时候出现,最少的信息是什么都不知道,知道每个字符出现的概率是部分知识。 熵的含义,如果一个信息源输出字符序列,已知的信息是字符表里每个字符出现的概率,那么检查到一个出现概率很高的字符的时候得到的信息要少。比如a, b构成的10个字符的序列,字符a出现的概率为9/10的,如果第一个出现的字符就是b,那么我们知道后面9个都是a,字符序列完全确定了,可见b出现带来的信息量很大。反过来如果第一个出现的是a,后面9个还是不能确定。

No comments:

Post a Comment

Print This Post