Try to Understand: Entropy

对一个离散的概率空间$(\Omega=\{x_1, x_2, \cdots, x_r\}, P)$，概率测度的$P$的墒定义为 $$H=-\sum_{j=1}^rp_j\ln p_j$$ 设$\omega=(\omega_1, \omega_2, \cdots, \omega_n)\in \Omega_n$，那么 $$ \begin{align} P(\omega)&=P(\omega_1)\cdots P(\omega_n)\\ &=p_1^{\nu_1^n(\omega)}\cdots p_r^{\nu_r^n(\omega)}\\ &=\exp(\sum_{j=1}^r\nu_j^n(\omega)\ln p_j)\\ &=\exp(n\sum_{j=1}^r\frac{\nu_j^n(\omega)}{n}\ln p_j)\\ &=\exp(n\sum_{j=1}^rp_j\ln p_j)\exp(n\sum_{j=1}^r(\frac{\nu_j^n(\omega)}{n}-p_j)\ln p_j) \end{align} $$ 信息熵是随机变量的分布的泛函定义为 $$H=-\sum_{j=1}^rp_j\log_2 p_j$$ It is the number of bits on average required to describe the random variable.比如均匀分布的离散随机变量，取值空间为32个值，每个值的概率为1/32，直观的可以看出需要5bit来描述这个随机变量的取值，这和信息熵公式计算的结果是一致的。

对于一段随机字符，全部的知识是知道每个字符什么时候出现，最少的信息是什么都不知道，知道每个字符出现的概率是部分知识。熵的含义，如果一个信息源输出字符序列，已知的信息是字符表里每个字符出现的概率，那么检查到一个出现概率很高的字符的时候得到的信息要少。比如a, b构成的10个字符的序列，字符a出现的概率为9/10的，如果第一个出现的字符就是b，那么我们知道后面9个都是a，字符序列完全确定了，可见b出现带来的信息量很大。反过来如果第一个出现的是a，后面9个还是不能确定。

Try to Understand

2012/04/15

Entropy

No comments:

Post a Comment