Showing posts with label 概率. Show all posts
Showing posts with label 概率. Show all posts
2012/06/16
Moment Generating Function
r.v. $X$的Moment Generating Function是一个参数化的期望,一个参数化的函数把r.v. $X$映射到另一个r.v.,然后求其期望,$f_t(X)=e^{tX}$的期望:
$$\phi(t)=E(f_t(X))=E(e^{tX})$$
可以推出:
$$\phi^{(n)}(0)=E(X^n)$$
所以计算Moment Generating Function的过程就是计算期望的过程,最后的一个用$t$参数化的期望。
2012/06/13
比赛
A,B,先赢$c$场的队赢,求比的场数的期望。
最多会比$2(c-1)+1=2c-1$场,A,B的情况完全对称,考虑A赢的情况,乘以2得全部的可能。
令$c\leq k\leq 2c-1$为A赢的情况下,比赛的场数。可能的组合是 $$N_k = {k\choose c}-{k-1\choose c}={k-1\choose c-1}$$ $k$场里选$c$场$A$赢,去掉A在$k-1$场以前已经赢的情况。
概率是 $$p^c(1-p)^{k-c}$$ A赢的情况下,比赛场数的期望是 $$N(p)=\sum_{k=c}^{2c-1}{k-1\choose c-1}p^i(1-p)^{k-c}$$ 根据对称性,B赢的情况下,比赛场数的期望是$N(1-p)$,所以 $$N=N(p)+N(1-p)$$
最多会比$2(c-1)+1=2c-1$场,A,B的情况完全对称,考虑A赢的情况,乘以2得全部的可能。
令$c\leq k\leq 2c-1$为A赢的情况下,比赛的场数。可能的组合是 $$N_k = {k\choose c}-{k-1\choose c}={k-1\choose c-1}$$ $k$场里选$c$场$A$赢,去掉A在$k-1$场以前已经赢的情况。
概率是 $$p^c(1-p)^{k-c}$$ A赢的情况下,比赛场数的期望是 $$N(p)=\sum_{k=c}^{2c-1}{k-1\choose c-1}p^i(1-p)^{k-c}$$ 根据对称性,B赢的情况下,比赛场数的期望是$N(1-p)$,所以 $$N=N(p)+N(1-p)$$
2012/06/10
概率计算技巧
1) 利用经典分布。例如二项分布,求$n$个元素里具有某种属性的元素的个数为$r$的概率,首先求出单个元素具有这种属性的概率,然后利用分布公式。
$d$为显性基因,$r$为隐性基因,父母为都为$rd$,求4个孩子里有3个呈显性的概率。
Solution: If we assume that each child is equally likely to inherit either of two genes from each parent, the probabilities that the child of two hybrid parents will have $dd, rr, rd$ pairs of genes are, respectively $(1/4, 1/4, 1/2)$, Hence, because an offspring will have the outward appearance of the dominant gene if its gene pair is either $dd, \text{ or } rd$, it follows that the number of such children is binomially distributed with parameters $(4, 3/4)$.(注意到单个元素具有显性这种属性的概率需要计算,不是直接知道。)
二项分布其实给出了概率空间里,$n$个(不相交的)子集的概率情况,一般问题中要求的具有某个属性个子集可以表达成这$n$个子集的并。
2) 区间上的均匀分布:随机变量的值落到某个子区间的概率等于这个子区间的长度占全部区间的比例。
3) 正态分布:密度函数可以吸收$x$的线性变换而不改变形式 $$f(x)=\frac{1}{\sqrt{2\pi}\sigma} \exp{ \left( -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right) }$$
4) 随机变量$X$的函数$g(X)$的期望计算的时候只能把$g$做到积分$E(X)=\int_{-\infty}^{\infty}xf(x)dx$里面的$x$上,不能作用在$E(X)$的结果上。 $$E(g(X))=\int_{-\infty}^{\infty}g(x)f(x)dx$$ moment是$g(X)=X^n$。
Var是$g(X)=(X-m)^2, m=E(X)$。
二维的时候 $$E(g(X, Y))=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x, y)f(x, y)dxdy$$ 但是如果$g$是线性函数,显然可以和积分交换,所以期望具有线性。
5) 分布函数$F(a)$接受的参数是一个界限$a$,联合分布函数$F(a, b)$接受的参数是两个界限$a, b$。得单个分布的方法是另一个界限传入$+\infty$,例如 $$F_X(a)=F(a, +\infty)$$ 联合密度是$p(x, y)=P(X=x, Y=y)$,要得单个r.v.的方法是对另一个求和 $$p_X(x)=\sum_{y}p(x,y)$$ 连续的时候是对另一个积分 $$f_X(x)=\int_{-\infty}^{\infty}f(x,y)dy$$ 一个例子
$E(X+Y)=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x+y)f(x, y)dxdy\\
=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf(x, y)dxdy + \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}yf(x, y)dxdy\\
=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f(x, y)dydx + \int_{-\infty}^{\infty}y\int_{-\infty}^{\infty}f(x, y)dxdy\\
=\int_{-\infty}^{\infty}xf_X(x)dx + \int_{-\infty}^{\infty}yf_Y(y)dy\\
=E(X) + E(Y)$
6) 现实中期望是容易得到的参数,只要对r.v.做很多实验,求平均值就可以了。有些不等式给出了概率空间某些集合的概率的估计是期望的函数。
7) 利用indicator函数
indicator的特点是期望等于取值1的概率 $$E(I)=P(I=1)=1-P(I=0)$$ 并且这个r.v. indicator的平方的期望不变 $$E(I^2)=1^2\cdot P(I=1) + 0^2\cdot P(I=0)$$
25种优惠券,被选中的机会均等,求随机取10张优惠券里面优惠券种类的期望。
概率空间里的元素$\omega$为10张优惠券的组合,考虑集合$A_i=\{\omega | \omega \text{ contains type $i$ coupon }\}$,定义$I_i$为$A_i$的indicator,问题中的r.v. 可以表达成$X(\omega)=\sum_iI_i(\omega)$,由期望的线性 $$E(x)=E(\sum_iI_i)=\sum_iE(I_i)=\sum_i[1-\left(\frac{24}{25}\right)^{10}]=25[1-\left(\frac{24}{25}\right)^{10}]$$ 利用条件,概率空间里的元素是set,r.v是set的一个内部的一个计数,计数可以分解成indicator。
8) 密度函数,分布函数表达的都是r.v.某个逆像的概率测度,r.v.独立的定义是任何逆像作为概率空间的子集是独立的。子集独立定义用到其交集的概率,而联合分布其实是定义了逆像的交集的概率。
独立r.v.实际上对应了概率空间内部的一个乘积分解,原空间实际上可以表达成两个概率空间的乘积。
一个随机变量对应了概率空间的一个维度(测量样本的一个属性),测很多个属性,里面独立的对应了概率空间内部的乘积结构。
9) 概率和组合:
i) 如果问题中的组合有$N$种可能,每种组合的概率是相等的,也就是$p=\frac{1}{N}$,那么要求其中某些组合的集合的概率,1.直接计数,算满足条件的组合有个数$M$,概率是$\frac{M}{N}$。2.已知每个组合的概率是$p=\frac{1}{N}$,满足条件的组合有$M$种,简单的把$M$个组合的概率加起来就得到结果,$M\frac{1}{N}$.
ii) 有时候满足要求的组合的概率并不相等,这时候要单独计算每种组合的概率和个数,最后做加法。比如抛硬币,出现正面结束,求抛的次数小于5的概率。
iii) 还有满足条件的元素可以分成多组,每组内部的元素概率相等,不同组的元素的概率不同。计算方法和ii类似,组内计数,的组的概率,整个组构成的子集的概率,然后所有的组相加,例如后面的比赛的例子。
10) 概率,和式,积分
和式以及积分,分成两部分,第一是变量可以取值的范围,或者下标可以取值的范围,第二部分是刚才约束的变量的函数,这个函数取遍所有的可能不重复的值求和。
两个部分可以独立的变化,只要不改变实际的范围或者函数的取值。
11) Conditioning 用indicator可以把一个集合的概率$P$和它的indicator的r.v.的期望联系起来(进一步,它们的条件期望和条件概率也相等),期望可以用条件期望的方法计算。例子,假设$X,Y$是两个独立的r.v.,计算$P\{X < Y\}$ $$P\{X < Y\}=\int_{-\infty}^{\infty}P\{ X < Y|Y=y \}f_Y(y)dy$$ 等式右边的积分是期望带来的。
$d$为显性基因,$r$为隐性基因,父母为都为$rd$,求4个孩子里有3个呈显性的概率。
Solution: If we assume that each child is equally likely to inherit either of two genes from each parent, the probabilities that the child of two hybrid parents will have $dd, rr, rd$ pairs of genes are, respectively $(1/4, 1/4, 1/2)$, Hence, because an offspring will have the outward appearance of the dominant gene if its gene pair is either $dd, \text{ or } rd$, it follows that the number of such children is binomially distributed with parameters $(4, 3/4)$.(注意到单个元素具有显性这种属性的概率需要计算,不是直接知道。)
二项分布其实给出了概率空间里,$n$个(不相交的)子集的概率情况,一般问题中要求的具有某个属性个子集可以表达成这$n$个子集的并。
2) 区间上的均匀分布:随机变量的值落到某个子区间的概率等于这个子区间的长度占全部区间的比例。
3) 正态分布:密度函数可以吸收$x$的线性变换而不改变形式 $$f(x)=\frac{1}{\sqrt{2\pi}\sigma} \exp{ \left( -\frac{1}{2} \left( \frac{x-\mu}{\sigma} \right)^2 \right) }$$
4) 随机变量$X$的函数$g(X)$的期望计算的时候只能把$g$做到积分$E(X)=\int_{-\infty}^{\infty}xf(x)dx$里面的$x$上,不能作用在$E(X)$的结果上。 $$E(g(X))=\int_{-\infty}^{\infty}g(x)f(x)dx$$ moment是$g(X)=X^n$。
Var是$g(X)=(X-m)^2, m=E(X)$。
二维的时候 $$E(g(X, Y))=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x, y)f(x, y)dxdy$$ 但是如果$g$是线性函数,显然可以和积分交换,所以期望具有线性。
5) 分布函数$F(a)$接受的参数是一个界限$a$,联合分布函数$F(a, b)$接受的参数是两个界限$a, b$。得单个分布的方法是另一个界限传入$+\infty$,例如 $$F_X(a)=F(a, +\infty)$$ 联合密度是$p(x, y)=P(X=x, Y=y)$,要得单个r.v.的方法是对另一个求和 $$p_X(x)=\sum_{y}p(x,y)$$ 连续的时候是对另一个积分 $$f_X(x)=\int_{-\infty}^{\infty}f(x,y)dy$$ 一个例子
6) 现实中期望是容易得到的参数,只要对r.v.做很多实验,求平均值就可以了。有些不等式给出了概率空间某些集合的概率的估计是期望的函数。
7) 利用indicator函数
indicator的特点是期望等于取值1的概率 $$E(I)=P(I=1)=1-P(I=0)$$ 并且这个r.v. indicator的平方的期望不变 $$E(I^2)=1^2\cdot P(I=1) + 0^2\cdot P(I=0)$$
25种优惠券,被选中的机会均等,求随机取10张优惠券里面优惠券种类的期望。
概率空间里的元素$\omega$为10张优惠券的组合,考虑集合$A_i=\{\omega | \omega \text{ contains type $i$ coupon }\}$,定义$I_i$为$A_i$的indicator,问题中的r.v. 可以表达成$X(\omega)=\sum_iI_i(\omega)$,由期望的线性 $$E(x)=E(\sum_iI_i)=\sum_iE(I_i)=\sum_i[1-\left(\frac{24}{25}\right)^{10}]=25[1-\left(\frac{24}{25}\right)^{10}]$$ 利用条件,概率空间里的元素是set,r.v是set的一个内部的一个计数,计数可以分解成indicator。
8) 密度函数,分布函数表达的都是r.v.某个逆像的概率测度,r.v.独立的定义是任何逆像作为概率空间的子集是独立的。子集独立定义用到其交集的概率,而联合分布其实是定义了逆像的交集的概率。
独立r.v.实际上对应了概率空间内部的一个乘积分解,原空间实际上可以表达成两个概率空间的乘积。
一个随机变量对应了概率空间的一个维度(测量样本的一个属性),测很多个属性,里面独立的对应了概率空间内部的乘积结构。
9) 概率和组合:
i) 如果问题中的组合有$N$种可能,每种组合的概率是相等的,也就是$p=\frac{1}{N}$,那么要求其中某些组合的集合的概率,1.直接计数,算满足条件的组合有个数$M$,概率是$\frac{M}{N}$。2.已知每个组合的概率是$p=\frac{1}{N}$,满足条件的组合有$M$种,简单的把$M$个组合的概率加起来就得到结果,$M\frac{1}{N}$.
ii) 有时候满足要求的组合的概率并不相等,这时候要单独计算每种组合的概率和个数,最后做加法。比如抛硬币,出现正面结束,求抛的次数小于5的概率。
iii) 还有满足条件的元素可以分成多组,每组内部的元素概率相等,不同组的元素的概率不同。计算方法和ii类似,组内计数,的组的概率,整个组构成的子集的概率,然后所有的组相加,例如后面的比赛的例子。
10) 概率,和式,积分
和式以及积分,分成两部分,第一是变量可以取值的范围,或者下标可以取值的范围,第二部分是刚才约束的变量的函数,这个函数取遍所有的可能不重复的值求和。
两个部分可以独立的变化,只要不改变实际的范围或者函数的取值。
11) Conditioning 用indicator可以把一个集合的概率$P$和它的indicator的r.v.的期望联系起来(进一步,它们的条件期望和条件概率也相等),期望可以用条件期望的方法计算。例子,假设$X,Y$是两个独立的r.v.,计算$P\{X < Y\}$ $$P\{X < Y\}=\int_{-\infty}^{\infty}P\{ X < Y|Y=y \}f_Y(y)dy$$ 等式右边的积分是期望带来的。
2012/04/23
Markov Chain
1) 单步过度概率矩阵$P=(p_{ij})$,其中$p_{ij}$是状态$i$到状态$j$的概率。也就是条件概率
$$P(X_n=j|X_{n-1}=i)$$
2)state的选择,初始不是Markov过程的过程可以转变成Markov,比如明天下雨的概率依赖于今天和昨天的情况。这时候可以定义状态为连续两天天气状态的所有可能。
3) 直线上的random walk,状态空间为直线上的整数点,假设$X_n=i$,$X_{n+1}$只能是$i-1,i+1$,也就是 $$ \begin{array}{l} &P(X_{n+1}=i+1|X_n=i)=p\\ &P(X_{n+1}=i-1|X_n=i)=1-p \end{array} $$ 4) 如果一个Markov Chain进入某个状态后不会变成其他状态,这些状态称为absorbing states,用转换概率表达式 $$ \begin{array}{r} &P(X_{n+1}=as | X_n=as)=1\\ &P(X_{n+1}=\text{other states} | X_n=as)=0 \end{array} $$ 5) n-step transition概率定义为$P^n_{ij}=P(X_{n+k}=j | X_k=i)$,Chapman-Kolmogorov方程 $$P_{ij}^{n+m}=\sum_{k=0}^\infty P^n_{ik}P^m_{kj}$$ 是简单的不同path的概率的和式。式中的概率都是条件概率。并且上面的式子正好是矩阵相乘。根据归纳法可知$P^n_{ij}$是一阶转移矩阵n次方$(P_{ij})^n$的元素。
5) n-step transition中n可以为0,这时候transition矩阵是单位矩阵。两个状态称为accessible,如果存在n满足$P^n_{ij} > 0$。互相accessible的状态是称为communicate,记为$i\leftrightarrow j$。communicate是等价关系。如果一个Markov Chain的所有状态互相communicate,那么这个chain称为irreducible。
6) 考虑时间趋于无穷的时候情况,状态有这样的分类。$f_i$记为当时间趋于无穷的时候状态$i$至少会被到达一次的概率。如果$f_i=1$状态称为recurrent,如果$f_i < 1$称为transient。
7) 如果一个Markov Chain在某个时间进入了某个状态$i$,Chain等价于从$i$起始,并且如果$i$是recurrent,那么Chain将会infinitely often进入$i$。所以recurrent和transient可用chian进入这个状态次数的期望来刻画。
8) 假设chain的起始状态是i,$I_n$为indicator,第$n$步的时候如果chain在状态i则$I_n=1$否则$I_n=0$,chian进入状态i次数的期望为 $$E(\sum_{n=0}^\infty I_n | X_0=i)=\sum_{n=1}^\infty P^n_{ii} $$ 同样的道理,transient的数学意义,当时间趋于无穷的时候状态只会被访问有限次。显然transient和recurrent是互斥的。
9) communicate把chain的状态分成等价类,每个等价类状态要么全是recurrent要么全是transient。因为recurrent意味着一旦有可能进入这个状态,那么将会无限次的进入这个状态,加上communicate,和他在同一个等价类的状态都是这样的。
10) 再考虑上面的random walk,所有的状态都是communicate的,所以要么全是recurrent,要么全是transient,可以证明,一维的时候如果$p=\frac{1}{2}$那么所有的状态都是recurrent的,否则都是transient的。二维的时候有类似的结论,但是当维度大于2的时候所有的random walk状态不论$p$是多少都是transient的。
11) n-step transition概率矩阵记为$P^{(n)}$当$n$趋于无穷的时候得到的极限情况。对于ergodic Markov Chain 极限$\lim_{n\to \infty}P^n_{ij}$存在,并且极限值不依赖于$i$,也就是说无论起始状态是什么,n趋于无穷的时候最后达到的状态$j$的概率是固定的,所以可以记为$\pi_j$,(可以构造一个代数方程,$\pi_j$可以用解代数方程的方法求出,不用求极限)。
3) 直线上的random walk,状态空间为直线上的整数点,假设$X_n=i$,$X_{n+1}$只能是$i-1,i+1$,也就是 $$ \begin{array}{l} &P(X_{n+1}=i+1|X_n=i)=p\\ &P(X_{n+1}=i-1|X_n=i)=1-p \end{array} $$ 4) 如果一个Markov Chain进入某个状态后不会变成其他状态,这些状态称为absorbing states,用转换概率表达式 $$ \begin{array}{r} &P(X_{n+1}=as | X_n=as)=1\\ &P(X_{n+1}=\text{other states} | X_n=as)=0 \end{array} $$ 5) n-step transition概率定义为$P^n_{ij}=P(X_{n+k}=j | X_k=i)$,Chapman-Kolmogorov方程 $$P_{ij}^{n+m}=\sum_{k=0}^\infty P^n_{ik}P^m_{kj}$$ 是简单的不同path的概率的和式。式中的概率都是条件概率。并且上面的式子正好是矩阵相乘。根据归纳法可知$P^n_{ij}$是一阶转移矩阵n次方$(P_{ij})^n$的元素。
5) n-step transition中n可以为0,这时候transition矩阵是单位矩阵。两个状态称为accessible,如果存在n满足$P^n_{ij} > 0$。互相accessible的状态是称为communicate,记为$i\leftrightarrow j$。communicate是等价关系。如果一个Markov Chain的所有状态互相communicate,那么这个chain称为irreducible。
6) 考虑时间趋于无穷的时候情况,状态有这样的分类。$f_i$记为当时间趋于无穷的时候状态$i$至少会被到达一次的概率。如果$f_i=1$状态称为recurrent,如果$f_i < 1$称为transient。
7) 如果一个Markov Chain在某个时间进入了某个状态$i$,Chain等价于从$i$起始,并且如果$i$是recurrent,那么Chain将会infinitely often进入$i$。所以recurrent和transient可用chian进入这个状态次数的期望来刻画。
8) 假设chain的起始状态是i,$I_n$为indicator,第$n$步的时候如果chain在状态i则$I_n=1$否则$I_n=0$,chian进入状态i次数的期望为 $$E(\sum_{n=0}^\infty I_n | X_0=i)=\sum_{n=1}^\infty P^n_{ii} $$ 同样的道理,transient的数学意义,当时间趋于无穷的时候状态只会被访问有限次。显然transient和recurrent是互斥的。
9) communicate把chain的状态分成等价类,每个等价类状态要么全是recurrent要么全是transient。因为recurrent意味着一旦有可能进入这个状态,那么将会无限次的进入这个状态,加上communicate,和他在同一个等价类的状态都是这样的。
10) 再考虑上面的random walk,所有的状态都是communicate的,所以要么全是recurrent,要么全是transient,可以证明,一维的时候如果$p=\frac{1}{2}$那么所有的状态都是recurrent的,否则都是transient的。二维的时候有类似的结论,但是当维度大于2的时候所有的random walk状态不论$p$是多少都是transient的。
11) n-step transition概率矩阵记为$P^{(n)}$当$n$趋于无穷的时候得到的极限情况。对于ergodic Markov Chain 极限$\lim_{n\to \infty}P^n_{ij}$存在,并且极限值不依赖于$i$,也就是说无论起始状态是什么,n趋于无穷的时候最后达到的状态$j$的概率是固定的,所以可以记为$\pi_j$,(可以构造一个代数方程,$\pi_j$可以用解代数方程的方法求出,不用求极限)。
2012/04/08
条件期望
0) 条件期望计算的一个前提条件是,用于条件的概率是可以计算的。
条件期望$$E(X|Y)$$是r.v. $Y$的函数,所以也是个随机变量。这个r.v.的一个性质的是它的期望和$X$的期望相等。
我们知道r.v.$X$带了了底部概率空间的一个划分,划分的每个子集里,$X$的取值是一样的。加入另一个r.v. $Y$带来了底部概率空间的另一个划分,对这个划分我们定义了条件期望,也就是在$Y$带了的划分上对$X$求期望。
$Y$只是提供了底部概率空间的划分,其取值并不影响条件期望的值,只要$P(Y\in \text{subset})$不变,如果两个$Y$提供同样的划分,那么得的条件期望并不变。
1) 条件期望
对一个r.v. $X$,对事件$B$的条件期望是 $$E(X|B)=\frac{1}{P(B)}\int_B X dP$$ 一个r.v.对另一个离散r.v.的条件期望定义为 $$E(X|Y)(\omega)=E(X|{Y=y_n}),\quad \text{ if }Y(\omega)=y_n$$ 一个r.v.对一个B.F.的条件期望定义:$X$是概率空间$(\Omega, \mathcal{F}, P)$上的r.v.,$\mathcal{G}$是一个B.F.,并且$\mathcal{G}\subseteq \mathcal{F}$,那么$X$对$\mathcal{G}$的条件期望为一个r.v.,满足
(i)$\mathcal{G}\text{-measurable}$
(ii)对$\mathcal{G}$中的任意元素$A$有 $$\int_A E(X|\mathcal{G})dP=\int_A X dP$$
2) Conditioning
当Conditioning到另一个r.v.的时候,比如计算$E(X)=E( E(X|Y) )$,第一种看法是根据$Y$的分布,计算各个$E(X|Y)$,另一种看法是把$Y$看成已知,直接算出$E(X|Y)$。
例子:抛硬币,假设正面朝上的概率是$p$,当得到$k$次连续的正面的时候实验结束。计算需要的次数的期望。 令$N_k$为需要的次数,考虑 $$E(N_k|N_{k-1})=N_{k-1}+\left[ 1p + (1+E(N_k))(1-p) \right]$$ 这里是把$N_{k-1}$看成已知,然后观察后面的实验。
2012/03/25
随机变量的收敛
1)$\{X_n\}$收敛到$X$ a.e.:概率空间$\Omega$去掉一个null set后,其中任何一点$\omega$有,$X(\omega)$有限,并且:
$$\lim_{n\rightarrow \infty}X_n(\omega)=X(\omega)$$
2)almost uniform convergence:任给一个正数$\epsilon$,记$A_m(\epsilon)=\cap_{n=m}^\infty\{ |X_n-X| \leq \epsilon \}$,这个集合的意思是,集合里的任何一个元素$\omega$,$m$往后所有$X_n(\omega)$和$X(\omega)$的差小于$\epsilon$,(也就是解不等式得到的$\Omega$上的集合然后取交集)。
上面的正数$\epsilon$和$\omega$的选取无关,所以这个收敛是uniform的,这种收敛称为almost uniform convergence。在有限测度空间上,这种收敛和a.e.收敛是等价的。
收敛a.e.等价于对所有的$\epsilon > 0$有$\lim_{m\rightarrow \infty}P(A_m(\epsilon))=1$。
3)收敛in probability:对任意的正数$\epsilon$有 $$\lim_{n\rightarrow \infty}P\{|X_n-X| > \epsilon\} = 0$$ 看成解不等式的$\Omega$上的集合,然后求概率,注意解不等式得到的集合不一定是单调的,最极端的情况,每个$n$得到的满足不等式的集合都不同,他们的并集的概率测度不为0,所以收敛a.e.是更强的条件,收敛a.e.的时候那个坏的0测度集是固定的。
4)柯西条件:
$\{X_n\}$收敛到$X$ a.e,$\lim_{m\rightarrow \infty}P\{|X_n-X_{n'}| > \epsilon \text{ for some }n' > n \geq m\} = 0$
收敛in probability,$\lim_{n, n'\rightarrow \infty }P\{|X_n-X_{n'}| > \epsilon\} = 0$
5):集合的极限
极限的一个看法是去掉序列的前面有限个元素不影响收敛的情况和结果,例如对于集合的序列$E_j$,定义 $$F_m=\cup_{n=m}^\infty E_n$$ $F_m$的含义是序列去掉前面$m-1$个剩下集合的并,所以如果有一个元素$\omega$出现在无穷多个集合里那么它永远不会被扔掉,所以$\omega$在所有的$F_m$中。也就是在 $$\cap_{m=1}^\infty F_m$$ 里,称为infinitely often。
$F_m$是下降序列,所以根据概率的连续性,其概率的极限等于极限集合(i.o.)的概率。
如果$\sum_{n=1}^\infty P(E_n)$有限,根据无穷级数的性质这个无穷和的余项趋于0,也就是 $$\sum_{n=m}^\infty P(E_n)\to 0$$ 根据概率的次可加性,这个$F_m$的概率比这个余项要小,所以也趋于0,也就是说
Theorem:如果$\sum_{n=1}^\infty P(E_n)$有限,那么$E_n$里i.o.的元素集合的概率测度为0。
一个收敛到0的随机变量序列$X_n$和一个正数$\epsilon$定义了集合序列$E_n=\{|X_n| > \epsilon\}$。almost uniform convergence里面的$A_m^c(\epsilon)$看成$F_m$。
6):收敛in pr蕴含存在子序列收敛a.e.
证明:不是一般性,设收敛到0,收敛in pr那么对任意$\frac{1}{2^k}$可以找到,一个$X_{n_k}$使得集合$E_k=\{X_{n_k} > \frac{1}{2^k}\}$的概率测度小于$\frac{1}{2^k}$,有$\sum_{k=1}^\infty P(E_k)$有限。
上面的正数$\epsilon$和$\omega$的选取无关,所以这个收敛是uniform的,这种收敛称为almost uniform convergence。在有限测度空间上,这种收敛和a.e.收敛是等价的。
收敛a.e.等价于对所有的$\epsilon > 0$有$\lim_{m\rightarrow \infty}P(A_m(\epsilon))=1$。
3)收敛in probability:对任意的正数$\epsilon$有 $$\lim_{n\rightarrow \infty}P\{|X_n-X| > \epsilon\} = 0$$ 看成解不等式的$\Omega$上的集合,然后求概率,注意解不等式得到的集合不一定是单调的,最极端的情况,每个$n$得到的满足不等式的集合都不同,他们的并集的概率测度不为0,所以收敛a.e.是更强的条件,收敛a.e.的时候那个坏的0测度集是固定的。
4)柯西条件:
$\{X_n\}$收敛到$X$ a.e,$\lim_{m\rightarrow \infty}P\{|X_n-X_{n'}| > \epsilon \text{ for some }n' > n \geq m\} = 0$
收敛in probability,$\lim_{n, n'\rightarrow \infty }P\{|X_n-X_{n'}| > \epsilon\} = 0$
5):集合的极限
极限的一个看法是去掉序列的前面有限个元素不影响收敛的情况和结果,例如对于集合的序列$E_j$,定义 $$F_m=\cup_{n=m}^\infty E_n$$ $F_m$的含义是序列去掉前面$m-1$个剩下集合的并,所以如果有一个元素$\omega$出现在无穷多个集合里那么它永远不会被扔掉,所以$\omega$在所有的$F_m$中。也就是在 $$\cap_{m=1}^\infty F_m$$ 里,称为infinitely often。
$F_m$是下降序列,所以根据概率的连续性,其概率的极限等于极限集合(i.o.)的概率。
如果$\sum_{n=1}^\infty P(E_n)$有限,根据无穷级数的性质这个无穷和的余项趋于0,也就是 $$\sum_{n=m}^\infty P(E_n)\to 0$$ 根据概率的次可加性,这个$F_m$的概率比这个余项要小,所以也趋于0,也就是说
Theorem:如果$\sum_{n=1}^\infty P(E_n)$有限,那么$E_n$里i.o.的元素集合的概率测度为0。
一个收敛到0的随机变量序列$X_n$和一个正数$\epsilon$定义了集合序列$E_n=\{|X_n| > \epsilon\}$。almost uniform convergence里面的$A_m^c(\epsilon)$看成$F_m$。
6):收敛in pr蕴含存在子序列收敛a.e.
证明:不是一般性,设收敛到0,收敛in pr那么对任意$\frac{1}{2^k}$可以找到,一个$X_{n_k}$使得集合$E_k=\{X_{n_k} > \frac{1}{2^k}\}$的概率测度小于$\frac{1}{2^k}$,有$\sum_{k=1}^\infty P(E_k)$有限。
独立
0) 考虑离散的特殊r.v. $X, Y$
$P(X=a_i)=p_i,\quad P(Y=b_j)=q_j$满足$a_ib_j$各不相等,他们的乘积r.v.是 $$P(XY=a_ib_j)=P[(X=a_i)\cap (Y=b_j)]$$ $Cov$是乘积的期望和期望的乘积都是$a_ib_j$的线性组合,不过系数一个是 $$P[(X=a_i)\cap (Y=b_j)]$$ 另一个是$$P(X=a_i)P(Y=b_j)$$ 很明显如果两个随机变量独立,两个线性组合是相等的。可以看出,对于两个r.v.独立,他们具体取什么值不重要,重要的是他们诱导的在底部概率空间上的划分。
$Cov$把两个r.v.映射到一个实数,一个性质是可以穿过$\sum$。
0.5) 独立和乘积的关系
如果用乘积测度的角度看独立,$P(A), P(B)$是低一维的测度,$P(A\cap B)$是高一维的测度,其实$P(x\in A)=P(x\times y \in A\times \Omega_2)$
联合分布其实就是给出了$X,Y$诱导的底部概率空间的两个划分之间的所有可能的交集的概率测度。
0.6) r.v.的和的分布,$X,Y$各给出了底部概率空间的两个划分 集合$\{P=s\} = \{P(X+Y)=s\}$是满足的$X,Y$取值的配置的交集的概率测度的和。
如果两个r.v.独立,那么表达可以进一步简化,就是交集的概率等于概率的乘积。
1) $n$个r.v. $\{X_j\ |\ 1\leq j\leq n\}$独立的意思是对任意$\{B_j\in\mathcal{B}^1\ | \ 1\leq j\leq n\}$有: $$P\left\{ \cap_{j=1}^n (X_j\in B_j)\right\}=\prod_{j=1}^n P(X_j\in B_j)$$
2) 根据b.f. $\mathcal{B}^1$可以由区间$(-\infty, x]$生成,所以下面也是独立的条件 $$P\left\{ \cap_{j=1}^n (X_j\leq x_j)\right\}=\prod_{j=1}^n P(X_j\leq x_j)$$
3) 如果用这些r.v.在$(\mathcal{R}^1, \mathcal{B}^1)$诱导的测度$\mu_j$,以及在$(\mathcal{R}^n, \mathcal{B}^n)$诱导的乘积测度$\mu^n$,那么独立的条件可以表达成: $$\mu^n\left(\times_{j=1}^n B_j\right)=\prod_{j=1}^n \mu_j(B_j)$$
4) 两个独立随机变量$X_1, X_2$诱导的测度满足:$\mu^2(dx, dy)=\mu_1(dx)\mu_2(dx)$,所以 $$ \begin{align} E(XY) &= \int_{\Omega}X(\omega)Y(\omega)P(d(\omega))=\iint_{\mathcal{R}^2} xy\ \mu^2(dx, dy)\\ &= \int_{\mathcal{R}^1}x\ \mu_1(dx) \int_{\mathcal{R}^1}y\ \mu_2(dx)\\ &= E(X)E(Y) \end{align} $$
5) 如果$\{f_j\ |\ 1\leq j\leq n\}$是可测函数,那么$\{ f_j(X_j) \}$是独立的。
6) $\mu^n$对应的n-dimensional distribution function: $$F(x_1, \cdots, x_n)=P\left\{X_j\leq x_j, 1\leq j\leq n\right\}=\mu^n\left(\times_{j=1}^n(-\infty, x_j]\right)$$ 独立的条件可以写成: $$F(x_1, \cdots, x_n)=\prod_{j=1}^nF_j(x_j)$$ 7) 离散概率空间$\{\Omega_j\}$,他们的乘积空间为$\Omega^n=\Omega_1\times\cdots\times\Omega_n$,如果$X_i, X_j$分别为$\Omega_i, \Omega_j$上的随机变量,那么定义$\Omega^n$上的随机变量$\widetilde{X}_i, \widetilde{X}_j$,$\Omega^n$的点记为$\omega=(\omega_1, \cdots, \omega_n)$ $$ \widetilde{X}_i(\omega)= X_i(\omega_i)\\ \widetilde{X}_j(\omega)= X_j(\omega_j) $$ 是独立的。
注意: $$ \begin{align} \{\omega\ |\ \widetilde{X}_j(\omega)\in B_j\}=\Omega_1\times\cdots\times\Omega_{j-1}\times\{\omega_j\ |\ X_j(\omega_j)\in B_j\}\times\Omega_{j+1}\times\cdots\times\Omega_{n} \end{align} $$
8) $n$维立方体$\mathcal{U}^n=\{(x_1, \cdots, x_n)\ |\ 0\leq x_j\leq 1\}$,测度空间$(\mathcal{R}^n, \mathcal{B}^n, m^n)$,那么b.f. $\mathcal{B}^n$在$\mathcal{U}^n$上的trace是一个概率空间。$\{f_j\ |\ 1\leq j\leq n\}$为$n$个单变量可测函数,定义 $$X_j(x)=f_j(x_j)$$ 为$\mathcal{U}^n$上的$n$个独立的r.v.。
9) 也可以用$(\mathcal{R}^1, \mathcal{B}^1)$上的$n$个概率测度$\mu_j$也可以构造$(\mathcal{R}^n, \mathcal{B}^n)$上的独立随机变量:
10) 上面几个例子都是乘积空间上构造的,也可以在一个抽象的概率空间$(\mathcal{U}, \mathcal{B}, m)$构造,方法是嵌入一个乘积结构。考虑区间$(0,1]$里的数的二进制表达$x=.\epsilon_1\epsilon_2\cdots\epsilon_n\cdots$。那么$\epsilon_j(x)=\epsilon_j$可以看成一个r.v.,取值为0或者1,而且$P(\epsilon_1=0)=P(\epsilon_1=1)=P(\epsilon_2=1)=P(\epsilon_2=1)=1/2$,而且 $$P(\epsilon_1=1\cap\epsilon_2=0)=1/2^2=P(\epsilon_1=1)P(\epsilon_2=0)$$ $\epsilon_1=1\cap\epsilon_2=0$是长度为$1/4$的区间,所以这两个r.v.独立。
11) $\mathcal{B}^2$中不能直接表达为$\mathcal{B}^1$乘积的元素: $A\cup B$可以表达成乘积的和,$C$需要无穷多个乘积的和表达。
$P(X=a_i)=p_i,\quad P(Y=b_j)=q_j$满足$a_ib_j$各不相等,他们的乘积r.v.是 $$P(XY=a_ib_j)=P[(X=a_i)\cap (Y=b_j)]$$ $Cov$是乘积的期望和期望的乘积都是$a_ib_j$的线性组合,不过系数一个是 $$P[(X=a_i)\cap (Y=b_j)]$$ 另一个是$$P(X=a_i)P(Y=b_j)$$ 很明显如果两个随机变量独立,两个线性组合是相等的。可以看出,对于两个r.v.独立,他们具体取什么值不重要,重要的是他们诱导的在底部概率空间上的划分。
$Cov$把两个r.v.映射到一个实数,一个性质是可以穿过$\sum$。
0.5) 独立和乘积的关系
如果用乘积测度的角度看独立,$P(A), P(B)$是低一维的测度,$P(A\cap B)$是高一维的测度,其实$P(x\in A)=P(x\times y \in A\times \Omega_2)$
联合分布其实就是给出了$X,Y$诱导的底部概率空间的两个划分之间的所有可能的交集的概率测度。
0.6) r.v.的和的分布,$X,Y$各给出了底部概率空间的两个划分 集合$\{P=s\} = \{P(X+Y)=s\}$是满足的$X,Y$取值的配置的交集的概率测度的和。
如果两个r.v.独立,那么表达可以进一步简化,就是交集的概率等于概率的乘积。
1) $n$个r.v. $\{X_j\ |\ 1\leq j\leq n\}$独立的意思是对任意$\{B_j\in\mathcal{B}^1\ | \ 1\leq j\leq n\}$有: $$P\left\{ \cap_{j=1}^n (X_j\in B_j)\right\}=\prod_{j=1}^n P(X_j\in B_j)$$
2) 根据b.f. $\mathcal{B}^1$可以由区间$(-\infty, x]$生成,所以下面也是独立的条件 $$P\left\{ \cap_{j=1}^n (X_j\leq x_j)\right\}=\prod_{j=1}^n P(X_j\leq x_j)$$
3) 如果用这些r.v.在$(\mathcal{R}^1, \mathcal{B}^1)$诱导的测度$\mu_j$,以及在$(\mathcal{R}^n, \mathcal{B}^n)$诱导的乘积测度$\mu^n$,那么独立的条件可以表达成: $$\mu^n\left(\times_{j=1}^n B_j\right)=\prod_{j=1}^n \mu_j(B_j)$$
4) 两个独立随机变量$X_1, X_2$诱导的测度满足:$\mu^2(dx, dy)=\mu_1(dx)\mu_2(dx)$,所以 $$ \begin{align} E(XY) &= \int_{\Omega}X(\omega)Y(\omega)P(d(\omega))=\iint_{\mathcal{R}^2} xy\ \mu^2(dx, dy)\\ &= \int_{\mathcal{R}^1}x\ \mu_1(dx) \int_{\mathcal{R}^1}y\ \mu_2(dx)\\ &= E(X)E(Y) \end{align} $$
5) 如果$\{f_j\ |\ 1\leq j\leq n\}$是可测函数,那么$\{ f_j(X_j) \}$是独立的。
6) $\mu^n$对应的n-dimensional distribution function: $$F(x_1, \cdots, x_n)=P\left\{X_j\leq x_j, 1\leq j\leq n\right\}=\mu^n\left(\times_{j=1}^n(-\infty, x_j]\right)$$ 独立的条件可以写成: $$F(x_1, \cdots, x_n)=\prod_{j=1}^nF_j(x_j)$$ 7) 离散概率空间$\{\Omega_j\}$,他们的乘积空间为$\Omega^n=\Omega_1\times\cdots\times\Omega_n$,如果$X_i, X_j$分别为$\Omega_i, \Omega_j$上的随机变量,那么定义$\Omega^n$上的随机变量$\widetilde{X}_i, \widetilde{X}_j$,$\Omega^n$的点记为$\omega=(\omega_1, \cdots, \omega_n)$ $$ \widetilde{X}_i(\omega)= X_i(\omega_i)\\ \widetilde{X}_j(\omega)= X_j(\omega_j) $$ 是独立的。
注意: $$ \begin{align} \{\omega\ |\ \widetilde{X}_j(\omega)\in B_j\}=\Omega_1\times\cdots\times\Omega_{j-1}\times\{\omega_j\ |\ X_j(\omega_j)\in B_j\}\times\Omega_{j+1}\times\cdots\times\Omega_{n} \end{align} $$
8) $n$维立方体$\mathcal{U}^n=\{(x_1, \cdots, x_n)\ |\ 0\leq x_j\leq 1\}$,测度空间$(\mathcal{R}^n, \mathcal{B}^n, m^n)$,那么b.f. $\mathcal{B}^n$在$\mathcal{U}^n$上的trace是一个概率空间。$\{f_j\ |\ 1\leq j\leq n\}$为$n$个单变量可测函数,定义 $$X_j(x)=f_j(x_j)$$ 为$\mathcal{U}^n$上的$n$个独立的r.v.。
9) 也可以用$(\mathcal{R}^1, \mathcal{B}^1)$上的$n$个概率测度$\mu_j$也可以构造$(\mathcal{R}^n, \mathcal{B}^n)$上的独立随机变量:
10) 上面几个例子都是乘积空间上构造的,也可以在一个抽象的概率空间$(\mathcal{U}, \mathcal{B}, m)$构造,方法是嵌入一个乘积结构。考虑区间$(0,1]$里的数的二进制表达$x=.\epsilon_1\epsilon_2\cdots\epsilon_n\cdots$。那么$\epsilon_j(x)=\epsilon_j$可以看成一个r.v.,取值为0或者1,而且$P(\epsilon_1=0)=P(\epsilon_1=1)=P(\epsilon_2=1)=P(\epsilon_2=1)=1/2$,而且 $$P(\epsilon_1=1\cap\epsilon_2=0)=1/2^2=P(\epsilon_1=1)P(\epsilon_2=0)$$ $\epsilon_1=1\cap\epsilon_2=0$是长度为$1/4$的区间,所以这两个r.v.独立。
11) $\mathcal{B}^2$中不能直接表达为$\mathcal{B}^1$乘积的元素: $A\cup B$可以表达成乘积的和,$C$需要无穷多个乘积的和表达。
2012/03/24
期望
0) 求计数问题的期望的时候(比如求n次试验里出现的某种结果个数的期望),如果可以把问题转化成r.v.的和$\sum_i X_i$,那么结果等于是所求的期望是单个$X_i$的期望的和。
1) 期望是概率空间上对概率测度的积分
2) 对离散的r.v.,设对应的weighted partition是$\{\Lambda_j; b_j\}$,那么期望可以写成 $$E(X)=\sum_j b_j P(\Lambda_j)$$ 3) 对连续的正的r.v.,先定义一个weighted partition和一个离散的r.v.,对$m, n \geq 0$,定义集合 $$\Lambda_{mn}=\left\{ \omega | \frac{n}{2^m} \leq X(\omega) < \frac{n+1}{2^m} \right\}$$ 这是partition,weight定义为$n/2^m$也就是$\Lambda_{mn}$上$X$取的最小值,得到weighted partition $\{\Lambda_{mn}; n/2^m\}$。
这个weighted partition对应的离散r.v.为$X_m(\omega)=\frac{n}{2^m},\ \omega\in \Lambda_{mn}$。它的期望为 $$E(X_m)=\sum_{n=0}^{\infty}\frac{n}{2^m}P(\Lambda_{mn})$$ 定义$X$的期望为 $$E(X)=\lim_{m\rightarrow \infty}E(X_m)$$ 4)概率空间上的抽象积分和$(\mathcal{R}^1, \mathcal{B}^1)$上的Lebesgue–Stieltjes积分: $$\int_\Omega f(X(\omega))P(d\omega)=\int_{\mathcal{R}^1}f(x)\mu(dx)$$ 其中$\mu$是$X$在$(\mathcal{R}^1, \mathcal{B}^1)$诱导的概率测度,$f$是$(\mathcal{R}^1, \mathcal{B}^1)$上的可测函数, 如果取$f=1_{B\in \mathcal{B}^1}$,那么$\int_\Omega f(X(\omega))P(d\omega)=\int_\Omega 1_{B}(X(\omega))P(d\omega)$,可以看 $$1_{B}(X(\omega))=\left\{ \begin{array}{l l} 1 & \quad \text{if $\omega \in X^{-1}(B)$}\\ 0 & \quad \text{if $\omega \notin X^{-1}(B)$}\\ \end{array} \right.$$ 所以$\int_\Omega 1_{B}(X(\omega))P(d\omega)=\int_{X^{-1}(B)}P(d\omega)=P(X^{-1}(B))=P(X\in B)$。
另一边,$\int_{\mathcal{R}^1}f(x)\mu(dx)=\int_{\mathcal{R}^1}1_{B}(x)\mu(dx)=\int_{B}\mu(dx)=\mu(B)$。也就是 $$P(X\in B)=\mu(B)$$ 这就是$\mu$的定义,所以等式成立。$f$可以看成$(\mathcal{R}^1, \mathcal{B}^1)$上的r.v.,再根据积分的线性和单调收敛可以证明等式对离散和连续的$f$都成立。
二维的情况 $$\int_{\Omega}f(X(\omega), Y(\omega))P(d\omega)=\iint_{\mathcal{R}^2} f(x, y)\mu^2(dx, dy)$$
5)期望表达为在概率空间上的抽象积分形式: $$E(X)=\int_{\Omega}X(\omega)P(d\omega)$$ 根据4),这时候$f(x)=x$,积分表达为$(\mathcal{R}^1, \mathcal{B}^1)$上的Lebesgue–Stieltjes积分: $$E(X)=\int_{\Omega}X(\omega)P(d\omega)=\int_{\mathcal{R}^1}x\mu(dx)$$
6)对moment来说$f=(x-a)^r$ $$\int_{\mathcal{R}^1}(x-a)^r\mu(dx)$$
1) 期望是概率空间上对概率测度的积分
2) 对离散的r.v.,设对应的weighted partition是$\{\Lambda_j; b_j\}$,那么期望可以写成 $$E(X)=\sum_j b_j P(\Lambda_j)$$ 3) 对连续的正的r.v.,先定义一个weighted partition和一个离散的r.v.,对$m, n \geq 0$,定义集合 $$\Lambda_{mn}=\left\{ \omega | \frac{n}{2^m} \leq X(\omega) < \frac{n+1}{2^m} \right\}$$ 这是partition,weight定义为$n/2^m$也就是$\Lambda_{mn}$上$X$取的最小值,得到weighted partition $\{\Lambda_{mn}; n/2^m\}$。
这个weighted partition对应的离散r.v.为$X_m(\omega)=\frac{n}{2^m},\ \omega\in \Lambda_{mn}$。它的期望为 $$E(X_m)=\sum_{n=0}^{\infty}\frac{n}{2^m}P(\Lambda_{mn})$$ 定义$X$的期望为 $$E(X)=\lim_{m\rightarrow \infty}E(X_m)$$ 4)概率空间上的抽象积分和$(\mathcal{R}^1, \mathcal{B}^1)$上的Lebesgue–Stieltjes积分: $$\int_\Omega f(X(\omega))P(d\omega)=\int_{\mathcal{R}^1}f(x)\mu(dx)$$ 其中$\mu$是$X$在$(\mathcal{R}^1, \mathcal{B}^1)$诱导的概率测度,$f$是$(\mathcal{R}^1, \mathcal{B}^1)$上的可测函数, 如果取$f=1_{B\in \mathcal{B}^1}$,那么$\int_\Omega f(X(\omega))P(d\omega)=\int_\Omega 1_{B}(X(\omega))P(d\omega)$,可以看 $$1_{B}(X(\omega))=\left\{ \begin{array}{l l} 1 & \quad \text{if $\omega \in X^{-1}(B)$}\\ 0 & \quad \text{if $\omega \notin X^{-1}(B)$}\\ \end{array} \right.$$ 所以$\int_\Omega 1_{B}(X(\omega))P(d\omega)=\int_{X^{-1}(B)}P(d\omega)=P(X^{-1}(B))=P(X\in B)$。
另一边,$\int_{\mathcal{R}^1}f(x)\mu(dx)=\int_{\mathcal{R}^1}1_{B}(x)\mu(dx)=\int_{B}\mu(dx)=\mu(B)$。也就是 $$P(X\in B)=\mu(B)$$ 这就是$\mu$的定义,所以等式成立。$f$可以看成$(\mathcal{R}^1, \mathcal{B}^1)$上的r.v.,再根据积分的线性和单调收敛可以证明等式对离散和连续的$f$都成立。
二维的情况 $$\int_{\Omega}f(X(\omega), Y(\omega))P(d\omega)=\iint_{\mathcal{R}^2} f(x, y)\mu^2(dx, dy)$$
5)期望表达为在概率空间上的抽象积分形式: $$E(X)=\int_{\Omega}X(\omega)P(d\omega)$$ 根据4),这时候$f(x)=x$,积分表达为$(\mathcal{R}^1, \mathcal{B}^1)$上的Lebesgue–Stieltjes积分: $$E(X)=\int_{\Omega}X(\omega)P(d\omega)=\int_{\mathcal{R}^1}x\mu(dx)$$
6)对moment来说$f=(x-a)^r$ $$\int_{\mathcal{R}^1}(x-a)^r\mu(dx)$$
2012/03/23
随机变量
1) 逆映射保持补,交,并运算。特别的交集为空的两个集合的逆像交集也是空。
2) 验证一个由概率空间$(\Omega, \mathcal{F}, P)$到$(\mathcal{R}^1, \mathcal{B}^1)$的映射是r.v.只需要验证$X^{-1}(\ (-\infty, x]\ )\in \mathcal{F}$。
3) 所以对任何一个r.v.概率$P( \{X \in B\} )$有定义,其中$B\in \mathcal{B}^1$。
4) r.v.在$(\mathcal{R}^1, \mathcal{B}^1)$上诱导了一个概率测度$\mu=P\circ X^{-1}$称为$X$的"probability distribution measure"或者p.m.。$(\mathcal{R}^1, \mathcal{B}^1)$上的概率测度$\mu$诱导的D.F.称为$X$的D.F.。
5) 不同的r.v.可能诱导同样的$(\mathcal{R}^1, \mathcal{B}^1)$上的测度,比如取概率空间为$(\mathcal{U}, \mathcal{B}, m)$,那么$X(\omega)=\omega$和$Y(\omega)=1-\omega$诱导的测度是一样的。
6) 设$f: (\mathcal{R}^1, \mathcal{B}^1) \rightarrow (\mathcal{R}^1, \mathcal{B}^1)$是一个可测函数,那么$f\circ X$是一个r.v.。
证明:注意到$f$可测也就是$f^{-1}(\mathcal{B}^1) \subset \mathcal{B}^1$,所以 $$(f\circ X)^{-1}(\mathcal{B}^1)=X^{-1}\circ f^{-1}(\mathcal{B}^1) \subset X^{-1}(\mathcal{B}^1) \subset \mathcal{F}$$
7) 二维测度空间$(\mathcal{R}^2, \mathcal{B}^2)$,其中$\mathcal{B}^2$是由下面的集合生成 $$B_1 \times B_2 = \{ (x, y) | x\in B_1, y\in B_2,\ \ B_1, B_2 \in \mathcal{B}\}$$
8) 设$X, Y$是r.v.,随机向量$(X, Y): (\Omega, \mathcal{F}, P) \rightarrow (\mathcal{R}^2, \mathcal{B}^2)$诱导了$(\mathcal{R}^2, \mathcal{B}^2)$上的概率测度$\nu=P\circ (X, Y)^{-1}$,注意求概率的时候是并且的关系,也就是任取$A = B_1\times B_2$($\mathcal{B}^2$由这种形式的集合生成)那么: $$(X, Y)^{-1}(A)=X^{-1}(B_1)\cap Y^{-1}(B_2) \in \mathcal{F}$$
9) 离散随机变量:存在可数集$B\subset \mathcal{R}$满足$P(X\in B)=1$。
10) 集合的indicator:比如$\Delta$的indicator定义为 $$1_{\Delta}(\omega)=\left\{ \begin{array}{l l} 1 & \quad \text{if $\omega \in \Delta$}\\ 0 & \quad \text{if $\omega \notin \Delta$}\\ \end{array} \right.$$ 当$\Delta \in \mathcal{B}$的时候$1_{\Delta}$是一个r.v.。
11) 概率空间$\Omega$的可数划分(countable partition):划分是可数个$\Omega$的子集的集合$\{\Lambda_j\}$,满足$\Lambda_j\in \mathcal{F}$和$\cup_j\Lambda_j=\Omega$。
每个$\Lambda_j$选取一个实数$b_j$,下面的函数是一个离散r.v. $$\phi(\omega)=\sum_j b_j1_{\Lambda_j}(\omega)$$ $\phi$被称为r.v. belonging to the weighted partition $\{\Lambda_j; b_j\}$。 反过来,根据离散r.v.的定义,每个离散r.v.对应一个weighted partition。
很好的例子: $A$和$B$点有$n$个通信通道连接,每个信道的传输率都是$\rho$,显然有$k$条信道同时通信的时候总传输率是$k\rho$,每个信道失效的概率是$p$。样本空间是所有可能的组合,现在考察measure,假设你只能观察到总传输率,你measure一次只能得到值$k\rho$,从而知道有几个信道work,具体哪几个不知道。如果全部信息都知道的话,可能的情况应该有$2^n$种可能,但是我们测一次只知道这个样本落在集合
$$A_k=\{\omega=(\epsilon_1, \epsilon_2, \cdots, \epsilon_n) \in \Omega: \sum_n \epsilon_i=k\}$$
里,这样得到$n$个集合$\{A_i\}$。
如果一个人不知道具体的实验设置,他只能统计$k\rho$,这就是他能得到背后的probability space的测度。
2) 验证一个由概率空间$(\Omega, \mathcal{F}, P)$到$(\mathcal{R}^1, \mathcal{B}^1)$的映射是r.v.只需要验证$X^{-1}(\ (-\infty, x]\ )\in \mathcal{F}$。
3) 所以对任何一个r.v.概率$P( \{X \in B\} )$有定义,其中$B\in \mathcal{B}^1$。
4) r.v.在$(\mathcal{R}^1, \mathcal{B}^1)$上诱导了一个概率测度$\mu=P\circ X^{-1}$称为$X$的"probability distribution measure"或者p.m.。$(\mathcal{R}^1, \mathcal{B}^1)$上的概率测度$\mu$诱导的D.F.称为$X$的D.F.。
5) 不同的r.v.可能诱导同样的$(\mathcal{R}^1, \mathcal{B}^1)$上的测度,比如取概率空间为$(\mathcal{U}, \mathcal{B}, m)$,那么$X(\omega)=\omega$和$Y(\omega)=1-\omega$诱导的测度是一样的。
6) 设$f: (\mathcal{R}^1, \mathcal{B}^1) \rightarrow (\mathcal{R}^1, \mathcal{B}^1)$是一个可测函数,那么$f\circ X$是一个r.v.。
证明:注意到$f$可测也就是$f^{-1}(\mathcal{B}^1) \subset \mathcal{B}^1$,所以 $$(f\circ X)^{-1}(\mathcal{B}^1)=X^{-1}\circ f^{-1}(\mathcal{B}^1) \subset X^{-1}(\mathcal{B}^1) \subset \mathcal{F}$$
7) 二维测度空间$(\mathcal{R}^2, \mathcal{B}^2)$,其中$\mathcal{B}^2$是由下面的集合生成 $$B_1 \times B_2 = \{ (x, y) | x\in B_1, y\in B_2,\ \ B_1, B_2 \in \mathcal{B}\}$$
8) 设$X, Y$是r.v.,随机向量$(X, Y): (\Omega, \mathcal{F}, P) \rightarrow (\mathcal{R}^2, \mathcal{B}^2)$诱导了$(\mathcal{R}^2, \mathcal{B}^2)$上的概率测度$\nu=P\circ (X, Y)^{-1}$,注意求概率的时候是并且的关系,也就是任取$A = B_1\times B_2$($\mathcal{B}^2$由这种形式的集合生成)那么: $$(X, Y)^{-1}(A)=X^{-1}(B_1)\cap Y^{-1}(B_2) \in \mathcal{F}$$
9) 离散随机变量:存在可数集$B\subset \mathcal{R}$满足$P(X\in B)=1$。
10) 集合的indicator:比如$\Delta$的indicator定义为 $$1_{\Delta}(\omega)=\left\{ \begin{array}{l l} 1 & \quad \text{if $\omega \in \Delta$}\\ 0 & \quad \text{if $\omega \notin \Delta$}\\ \end{array} \right.$$ 当$\Delta \in \mathcal{B}$的时候$1_{\Delta}$是一个r.v.。
11) 概率空间$\Omega$的可数划分(countable partition):划分是可数个$\Omega$的子集的集合$\{\Lambda_j\}$,满足$\Lambda_j\in \mathcal{F}$和$\cup_j\Lambda_j=\Omega$。
每个$\Lambda_j$选取一个实数$b_j$,下面的函数是一个离散r.v. $$\phi(\omega)=\sum_j b_j1_{\Lambda_j}(\omega)$$ $\phi$被称为r.v. belonging to the weighted partition $\{\Lambda_j; b_j\}$。 反过来,根据离散r.v.的定义,每个离散r.v.对应一个weighted partition。
例子
比如掷骰子, probability space是{1点, 2点, ..., 6点}, $X$是把(1点)映射到数值1, (2点)映射到数值2。$X$也可以看成把(掷色子)这个实验映射到实数的映射,而probability space{1点, 2点, ..., 6点}是刻画所有样本的工具。这里$X$在probability space上诱导的测度正好和它本身的测度重合,如果$Y$这个随机变量把偶数点数映到1,奇数点数映射到2,那$Y$诱导的测度就要粗的多。但有时$Y$可能是唯一能观察到的量。比如下面的例子。很好的例子: $A$和$B$点有$n$个通信通道连接,每个信道的传输率都是$\rho$,显然有$k$条信道同时通信的时候总传输率是$k\rho$,每个信道失效的概率是$p$。样本空间是所有可能的组合,现在考察measure,假设你只能观察到总传输率,你measure一次只能得到值$k\rho$,从而知道有几个信道work,具体哪几个不知道。如果全部信息都知道的话,可能的情况应该有$2^n$种可能,但是我们测一次只知道这个样本落在集合
$$A_k=\{\omega=(\epsilon_1, \epsilon_2, \cdots, \epsilon_n) \in \Omega: \sum_n \epsilon_i=k\}$$
里,这样得到$n$个集合$\{A_i\}$。
如果一个人不知道具体的实验设置,他只能统计$k\rho$,这就是他能得到背后的probability space的测度。
概率测度和D.F.的关系
1) $\mathcal{B}^1$上的$p.m. \mu$决定一个D.F.
$$F(x) = \mu(\ (-\infty, x]\ )$$
2) D.F.到p.m.要用到测度的存在性,以及某种意义上的唯一性,还有测度的扩张。
一些概率空间的定义
1) $(\mathcal{U}, \mathcal{B}=\sigma(\mathcal{L}), m)$
区间$\mathcal{U}=(0, 1]$,其中$\mathcal{L} = \{(a, b]\ |\ 0 < a < b \leq 1\}$,$m$是lebesgue测度。
区间$\mathcal{U}=(0, 1]$,其中$\mathcal{L} = \{(a, b]\ |\ 0 < a < b \leq 1\}$,$m$是lebesgue测度。
可数可加<=>有限可加+连续性
1) 如果$E_n \downarrow$,则
$$E_n=\cup_{k=n}^\infty (E_k\setminus E_{k+1})\cup \cap_{k=1}^\infty E_k$$
设$x\in E_n$并且$x\notin \cup_{k=n}^\infty (E_k\setminus E_{k+1})$
$x\in E_n, x\notin E_n\setminus E_{n+1} \Rightarrow x\in E_{n+1}$由归纳法知$x\in E_i, i > n+1 \Rightarrow x \in \cap_{k=1}^\infty E_k$
2) 如果$E_n \downarrow \Phi$,则$\cap_{k=1}^\infty E_k = \Phi$ $$E_n=\cup_{k=n}^\infty (E_k\setminus E_{k+1})$$
3)如果可数可加成立 $$P(E_n) = P( \cup_{k=n}^\infty (E_k\setminus E_{k+1}) )=\sum_{k=n}^\infty P((E_k\setminus E_{k+1}))$$
取$n=1$ $$P(E_1) = P(E_1\setminus E_2) + P(E_2 \setminus E_3) + \cdots + P(E_{n-1} \setminus E_n) + \sum_{k=n}^\infty P((E_k\setminus E_{k+1}))$$ 上面的无穷级数收敛的事实说明,$\lim_{n\rightarrow \infty}P(E_n) = 0$
4)反过来,如果连续性和有限可加成立,设$B_k$两两不相交那么 $$\cup_{k=n+1}^\infty B_k \downarrow \Phi$$ 因为如果上面的极限不是$\Phi$那么必存在元素在无穷多个$B_k$中,这个两两不相交矛盾。由连续性 $$\lim_{n\rightarrow \infty}P(\cup_{k=n+1}^\infty B_k) = 0$$ 由有限可加性 $$ \begin{align} P(\cup_{k=1}^\infty B_k) &=& P(\cup_{k=1}^{n} B_k) + P(\cup_{k=n+1}^{\infty} B_k) \\ &=& \sum_{k=1}^n P(B_k) + P(\cup_{k=n+1}^{\infty} B_k) \end{align} $$ 上面的式子说明和式$\sum_{k=1}^n P(B_k)$有界,它又是递增的,所以这个和式的极限存在。让$n$趋于无穷,可得可数可加的等式。
$x\in E_n, x\notin E_n\setminus E_{n+1} \Rightarrow x\in E_{n+1}$由归纳法知$x\in E_i, i > n+1 \Rightarrow x \in \cap_{k=1}^\infty E_k$
2) 如果$E_n \downarrow \Phi$,则$\cap_{k=1}^\infty E_k = \Phi$ $$E_n=\cup_{k=n}^\infty (E_k\setminus E_{k+1})$$
3)如果可数可加成立 $$P(E_n) = P( \cup_{k=n}^\infty (E_k\setminus E_{k+1}) )=\sum_{k=n}^\infty P((E_k\setminus E_{k+1}))$$
取$n=1$ $$P(E_1) = P(E_1\setminus E_2) + P(E_2 \setminus E_3) + \cdots + P(E_{n-1} \setminus E_n) + \sum_{k=n}^\infty P((E_k\setminus E_{k+1}))$$ 上面的无穷级数收敛的事实说明,$\lim_{n\rightarrow \infty}P(E_n) = 0$
4)反过来,如果连续性和有限可加成立,设$B_k$两两不相交那么 $$\cup_{k=n+1}^\infty B_k \downarrow \Phi$$ 因为如果上面的极限不是$\Phi$那么必存在元素在无穷多个$B_k$中,这个两两不相交矛盾。由连续性 $$\lim_{n\rightarrow \infty}P(\cup_{k=n+1}^\infty B_k) = 0$$ 由有限可加性 $$ \begin{align} P(\cup_{k=1}^\infty B_k) &=& P(\cup_{k=1}^{n} B_k) + P(\cup_{k=n+1}^{\infty} B_k) \\ &=& \sum_{k=1}^n P(B_k) + P(\cup_{k=n+1}^{\infty} B_k) \end{align} $$ 上面的式子说明和式$\sum_{k=1}^n P(B_k)$有界,它又是递增的,所以这个和式的极限存在。让$n$趋于无穷,可得可数可加的等式。
一些扩展
5) 4的证明里,在一个field上也可以证明,只要$\cup_{k=1}^\infty B_k$在field里,并且连续性满足。2012/03/13
Dynkin定理证明($\pi-\lambda$ Theorem)
$\pi$-system是对有限交封闭;$\lambda$-system是对补和不交并封闭,并且包含全空间$\Omega$。如果一个system既是$\lambda$又是$\pi$,那么它是个$\sigma$-field(包含空集,对补集和可数并封闭)。
定理:设$\mathcal{L}$是一个$\lambda$-system,$\mathcal{C}$是一个$\pi$-system,且$\mathcal{C}\subseteq \mathcal{L}$,那么$\sigma(\mathcal{C}) \subseteq \mathcal{L}$。(也就是$\pi$-system生成的$\sigma$-field比包含它的任何一个$\lambda$-system小)。
路线:构造一个新的$\lambda$-system,证明它是$\pi$-system,并且这个system包含$\sigma(\mathcal{C})$且被$\mathcal{L}$包含。
新的$\lambda$-system定义为所有包含$\mathcal{C}$的$\lambda$-system的交集,记为$\mathcal{L}(\mathcal{C})$。
根据$\mathcal{L}(\mathcal{C})$的定义两个显然的包含关系
-- $\mathcal{L}(\mathcal{C})$必然被$\mathcal{L}$包含,因为$\mathcal{L}$是其中一个$\lambda$-system。
-- $\mathcal{L}(\mathcal{C})$包含$\mathcal{C}$,因为$\mathcal{L}(\mathcal{C})$是包含$\mathcal{C}$的system的交集。
1) $\mathcal{L}(\mathcal{C})$是$\lambda$-system。
$\mathcal{L}(\mathcal{C})$是$\lambda$-system的交集,而每个$\lambda$-system都包含全空间$\Omega$,所以$\mathcal{L}(\mathcal{C})$也包含$\Omega$。同样的道理任何一个$\mathcal{L}(\mathcal{C})$中的元素$A$必包含在所有的$\lambda$-system中,所以补集$A^c$也包含在所有的$\lambda$-system中。
不交并的运算同样发生在所有的$\lambda$-system中,所以也包含在$\mathcal{L}(\mathcal{C})$。
2) $\mathcal{L}(\mathcal{C})$是$\pi$-system。证明复杂一点。
对$\mathcal{L}(\mathcal{C})$中的一个元素$X$定义一个system $\mathcal{L}_X=\{Y|X\cap Y \in \mathcal{L}(\mathcal{C})\}$。$\mathcal{L}_X$是一个$\lambda$-system,证明见最后。
$\mathcal{L}_X$的含义是所有和$X$相交在$\mathcal{L}(\mathcal{C})$中的元素,当$X$变化的时候它有这样的性质:
证明$\mathcal{L}_X$是一个$\lambda$-system。
在概率里的应用
推论:如果两个概率测度在一个$\pi$-system $\mathcal{C}$上相等,那么他们在$\sigma(\mathcal{C})$上相等。
证明:注意到根据概率测度的性质,满足概率测度相等的所有集合(包含$\mathcal{C}$)是一个$\lambda$-system。
定理:设$\mathcal{L}$是一个$\lambda$-system,$\mathcal{C}$是一个$\pi$-system,且$\mathcal{C}\subseteq \mathcal{L}$,那么$\sigma(\mathcal{C}) \subseteq \mathcal{L}$。(也就是$\pi$-system生成的$\sigma$-field比包含它的任何一个$\lambda$-system小)。
路线:构造一个新的$\lambda$-system,证明它是$\pi$-system,并且这个system包含$\sigma(\mathcal{C})$且被$\mathcal{L}$包含。
新的$\lambda$-system定义为所有包含$\mathcal{C}$的$\lambda$-system的交集,记为$\mathcal{L}(\mathcal{C})$。
根据$\mathcal{L}(\mathcal{C})$的定义两个显然的包含关系
-- $\mathcal{L}(\mathcal{C})$必然被$\mathcal{L}$包含,因为$\mathcal{L}$是其中一个$\lambda$-system。
-- $\mathcal{L}(\mathcal{C})$包含$\mathcal{C}$,因为$\mathcal{L}(\mathcal{C})$是包含$\mathcal{C}$的system的交集。
1) $\mathcal{L}(\mathcal{C})$是$\lambda$-system。
$\mathcal{L}(\mathcal{C})$是$\lambda$-system的交集,而每个$\lambda$-system都包含全空间$\Omega$,所以$\mathcal{L}(\mathcal{C})$也包含$\Omega$。同样的道理任何一个$\mathcal{L}(\mathcal{C})$中的元素$A$必包含在所有的$\lambda$-system中,所以补集$A^c$也包含在所有的$\lambda$-system中。
不交并的运算同样发生在所有的$\lambda$-system中,所以也包含在$\mathcal{L}(\mathcal{C})$。
2) $\mathcal{L}(\mathcal{C})$是$\pi$-system。证明复杂一点。
对$\mathcal{L}(\mathcal{C})$中的一个元素$X$定义一个system $\mathcal{L}_X=\{Y|X\cap Y \in \mathcal{L}(\mathcal{C})\}$。$\mathcal{L}_X$是一个$\lambda$-system,证明见最后。
$\mathcal{L}_X$的含义是所有和$X$相交在$\mathcal{L}(\mathcal{C})$中的元素,当$X$变化的时候它有这样的性质:
- $X\in \mathcal{C}$,那么$\mathcal{L}_X$包含$\mathcal{C}$,因为任取$A\in \mathcal{C}$,根据目前的条件$A, X$都在$\mathcal{C}$里,而$\mathcal{C}$是$\pi$-system,对有限交封闭,因此$A\cap X\in\mathcal{C} \subseteq\mathcal{L}(\mathcal{C})$,所以$A$满足$\mathcal{L}_X$的条件。
$\mathcal{L}_X$包含$\mathcal{C}$的$\lambda$-system,所以是其中一个$\lambda$-system,所以$\mathcal{L}(\mathcal{C})\subseteq\mathcal{L}_X$,或者写成$\mathcal{L}(\mathcal{C})|_{\cap X\in\mathcal{C}} \subseteq \mathcal{L}(\mathcal{C})$。
也就是说,如果把和$\mathcal{C}$里面的元素相交看成一种运算的话,$\mathcal{L}(\mathcal{C})$对这个运算封闭。(这里很有意思,本来$\lambda$-sysem的定义是补和并的运算封闭,这里得到了一种交集运算封闭)。
- $X\in\mathcal{L}(\mathcal{C})$,根据上面的结论,这时候$X$和$\mathcal{C}$的元素相交还在$\mathcal{L}(\mathcal{C})$中,所以$\mathcal{C}\subseteq \mathcal{L}_X$
也可以得出$\mathcal{L}(\mathcal{C})\subseteq\mathcal{L}_X$,或者写成$\mathcal{L}(\mathcal{C})|_{\cap X\in\mathcal{L}(\mathcal{C})} \subseteq \mathcal{L}(\mathcal{C})$
大小关系
$\pi$-system $\mathcal{C}$ --> $\sigma$-field $\sigma(\mathcal{C})$ --> $\sigma$-field $\mathcal{L}(\mathcal{C})$ --> $\lambda$-system $\mathcal{L}$证明$\mathcal{L}_X$是一个$\lambda$-system。
在概率里的应用
推论:如果两个概率测度在一个$\pi$-system $\mathcal{C}$上相等,那么他们在$\sigma(\mathcal{C})$上相等。
证明:注意到根据概率测度的性质,满足概率测度相等的所有集合(包含$\mathcal{C}$)是一个$\lambda$-system。
2012/03/11
可测函数
要求$f$值域里的区间的逆像可测,实际上是对连续函数要求的一种放松,连续函数要求开集的逆像还是开集。
单调函数都是可测的,区间的逆像还是区间。
注意求区间的逆像其实就是解不等式。
可测函数对加法$f+g$和乘法$fg$封闭,如果$f=c$是常函数,显然可以推出对数量乘积封闭。
Lebesgue integral:假设函数$f$值域里的区间$J_n$的逆像是可测集,和式
$$\sum_{n=1}^N c_n m(f^{-1}(j_n))$$
有定义,其中$c_n \in J_n, m(\cdot)$是测度,和式的极限是Lebesgue integral。
Lemma:如果$F:R\times R \rightarrow R$是连续函数,$f, g$是可测函数,那么$h(x)=F(f(x), g(x))$可测。
wiki:The (pointwise) supremum, infimum, limit superior, and limit inferior of a sequence (viz., countably many) of real-valued measurable functions are all measurable as well.
limit superior $\lim\sup_{n\rightarrow \infty}f_n$可以这样看,对定义域的每一点$x_0, \{f_n(x_0)\}$是一个实数序列,limit superior在这点的取值是这个实数序列的limsup。对实数序列,limsup用语言描述是$n$后面的无穷多个元素的上界$p_n$,当$n$趋于无穷的时候得到的$p_n$的极限。
$p_n \geq p_{n+1}$,因为$p_{n} = max\{a_n, p_{n+1}\}$,所以$p_n=\sup_{m\geq n} a_m$是个递减的序列。递减序列如果有极限的话,极限也是下确界,所以limit superior也可以写成$n$个上界的下界。
$$\limsup_{n\rightarrow \infty}f_n=\inf_{n\geq 1}\{p_n=\sup_{m\geq n}f_m\}$$
对随机变量来说,一般他们的取值都是很好的集合,如果假设都是Borel sets。所以定义
$$X^{-1}(\mathcal{B})=\{S \subset \mathcal{F}: S=X^{-1}(B)\text{ for some }B\in \mathcal{B} \}$$
是一个$\sigma$-field,称为$X$生成的$\sigma$-field,记为$\mathcal{F}_X$,注意$X$的逆像是可以是空,而且不同集合的逆像可能是相同的,逆像不同个数可能很有限,所以如果$X$的取值是实数,我们可以检查实轴上的Borel set在$X$的逆像。
如果$X$只取值$a$,那么$\mathcal{F}_X=\{\Phi, \Omega\}$。
如果$X$只取两个值$a, b$,那么$\mathcal{F}_X=\{\Phi, \Omega, X^{-1}(a), X^{-1}(b) \}$。
如果$X$只取有限个值,那么$\mathcal{F}_X$有限。
如果$X$只取有可数个值,那么$\mathcal{F}_X$不可数,因为可数集合的全部子集的个数是不可数的,这些子集都可以得逆像。
注:Borel sets:the smallest $\sigma$-field containing all open sets (in $R^1$ or $R^n$).
通过$P_X(B)=P(X^{-1}(B)), B\in \mathcal{B}$可以在$X$的值域$(R, \mathcal{B})$的空间里定义了一个测度,称为$X$的分布。也就是说$(R, \mathcal{B}, P_X)$是一个概率空间。
例子:
1. Dirac measure, $X\equiv a$,诱导的$(R, \mathcal{B})$测度为
$$\delta_a(B)=\left\{
\begin{array}{l l}
1 & \quad \text{if $a \in B$}\\
0 & \quad \text{if $a \notin B$}\\
\end{array} \right.$$
也就是如果集合包含$a$那么测度为1,否则为0。
2. 如果$X$是离散随机变量,且$P(a_i)=p_i$,那么诱导的测度为
$$P_X(B)=\sum_{i=1}^\infty p_i\delta_{a_i}(B)$$
3. 如果底空间$\Omega$是离散的,那么其上的所有实值函数都是可测的,都是随机变量。
4. 不同函数值的函数逆像必然不相交,更进一步,不相交的集合的逆像是不相交的。
5. 从分布$F$构造随机变量的办法,假设$F$满足分布函数的性质。
--首先注意到$0 \leq F \leq 1$,取$\Omega = (0, 1)$为构造的随机变量的概率空间,对任何$\omega \in \Omega$,定义$X(\omega)=\sup\{y|F(y)<\omega\}$
随机变量$X, Y$独立的意思是$\mathcal{F}_X, \mathcal{F}_Y$独立,也就是对任意Borel集合$B, C\subset R$有:
$$P(X^{-1}(B)\cap Y^{-1}(C))=P(X^{-1}(B))P(Y^{-1}(C))$$
2012/03/10
概率:测度
集合
定义:- Field:对补和并封闭。
- Monotone Class(M.C.):对可数单调上升集合序列的并封闭,对单调下降集合序列的交封闭。注意M.C.不要求是Field。
- Borel Field(B.F.):对补集和可数并封闭。
定理:对有限并封闭+可数个上升集合序列的并封闭$\Rightarrow$对可数并封闭,因为,根据集合的运算规则: $$\cup_{i=1}^\infty E_n = \cup_{n=1}^\infty ( \cup_{i=1}^n E_i )$$ 而$(\cup_{i=1}^n E_i),\ \ n = 1, 2, 3, \cdots$是上升的集合序列。
关系:
- B.F.要求最严,显然B.F.是M.C.。
- 已知是Field,那么“是B.F.”和“是M.C.”等价(根据上面的定理)。
- 包含一个Field的M.C.也是Field。
- 包含一个Field的最小M.C.和最小B.F.是一致的。
1) Null set:$A \subseteq R$,任给一个正数$\epsilon$,存在一个区间的序列$\{I_i\}$,$A$可以被这些区间覆盖,并且这些区间的长度的和小于$\epsilon$,$\sum_i l(I_i) < \epsilon$。 可数个null set,$\{A_i\}$的并还是null set。(对任意$\epsilon$,用几何级数$\epsilon/2^i$作为第$i$个null set的覆盖的长度上界,所有这些覆盖的并的长度小于$\epsilon$) 可数集合都是和数个单点集合的并,所以是null set。 2) Cantor set:递归定义$C_0=[0, 1], C_n=(C_{n-1}/3)\cup (2/3 + C_{n-1}/3))$
0到1之间的实数用3进制表达,如果其中不包含1,那么这个数在Cantor set里
先考虑第一分割,新产生的端点为$1/3=0.1, 2/3=0.12222...$,去掉的点都是第一个小数位是1的数。
Outer measure的定义是所有覆盖的长度的下确界,确界的意思是对任意的正数$\epsilon, m ^*(A)+\epsilon$不是下界,也就是可以找到一个覆盖其长度落在$(m ^*(A), m ^*(A)+\epsilon)$里。
区间的Outer measure等于自己的长度,也就是说区间长度是所有覆盖的长度的下确界。
$m^*(I)\leq l(I)$:区间是自己的覆盖,所以其长度大于所有覆盖的下确界。
下面只要证明$m^*(I) < l(I)$不成立就可以了,也就是对任意的正数$\epsilon $可以找到在$(m^* (I), m^* (I) + \epsilon)$的一个覆盖,而且这个覆盖的长度大于$l(I)$。覆盖很容易找,因为Outer measure是下确界,计算长度的时候要用Heine-Borel theorem,先把覆盖变成开覆盖,但是长度又变化很小,然后找出有限开覆盖,这个长度可以计算。
Outer measure is countably subadditive: 也就是并集的outer measure不大于各个集合的outer measure的和。任何单个集合的覆盖,并在一起可以得到并集的一个覆盖。
Outer measure并不是对所有的集合都有可数可加性,即可数个不想交的集合,并集的outer measure等于单个集合outer measure的和。
如果$E$可测,那么对任何集合$A$,有$m^*(A)=m^*(A\cap E) + m^*(A\cap E^c)$,(显然可测的定义对补集运算对称,可测集合的补集一定是可测的)
如果$E$是区间那么$E$可测:对任何的集合$A$,根据Outer measure的定义,要描述$m^*(A)$,需要找一个$A$的覆盖(覆盖的元素是区间),而$E$和$E^c$也是区间,覆盖和区间的交集还是覆盖,研究这几个覆盖之间的关系可以证明。
$\sigma$-field的定义,以及其上测度的定义($\Omega$为底空间,Field里的元素是底空间子集)
Field $\mathcal{F}$的性质
1) 对补集运算封闭。
2) 对可数并运算封闭。
测度的性质
测度$\mu$定义为Field到正实数的映射,且要求其满足可数可加性。
满足上面公理的三元组记为$(\Omega, \mathcal{F}, \mu)$。
Outer measure约束在$R$上的可测集上满足上面的$\sigma$-field的定义,以及测度的定义,记为$(R, \mathcal{M}, m^*)$
outer measure的目的主要是为了辨别出可测的集合,构造$\sigma$-field,并在其上定义measure,进而得到measure space三元组。
由上面测度满足的公理可以推出,测度有性质
1)Monotonicity
2)Subadditivity
3)Continuity from below
4)Continuity from above
上面这些性质证明的方法是构造合适的不相交的集合,然后利用可数可加性。
2012/03/08
具体的分布
二项分布
定义:已知一次实验中成功的先验概率是$p$,做$n$次独立的实验,成功次数是一个Random Variable,这个Random Variable的分布可以通过先验概率和排列组合的方法计算出来。
公式$B(n, p)$:
$$p(i)=P(X=i)={n \choose i}p^i(1-p)^{n-i},\ \ i=0, 1, 2, .... n$$
$E[X]=np, Var(X)=np(1-p)$
Poisson分布
Poisson分布是已知随机变量的期望,和密度函数$P(X=i)=f(i, E(X))$
二项分布和Poisson分布的关系:现在考虑如果$p$很小,也就是事件发生的可能性很小,那么如果实验次数$n$也很小的话,基本不用实验了,发生的可能性很小。但是如果$n$很大,可以认为无穷大,二项分布$n$趋于无穷的时候得到Poisson分布。
既然$n$很大可以认为是无穷大,是个常数的所以Poisson分布的参数里不含$n$,只有期望$\lambda\approx np$($n$很大$p$很小$np$在有意思的范围)。比如一页书里面出现的错字,可以认为每个字都有错的可能,但是概率很小,这样我们就可以用Poisson分布了。
$$p(i)=P\{X=i\}=e^{-\lambda}\frac{\lambda^i}{i!},\ \ i=0, 1, 2, .... \infty$$
$e$的极限形式:
$$e^\lambda=\lim_{n\mapsto \infty}(1+\frac{\lambda}{n})^n$$
计算的时候还会用到$e$的级数形式:
$$e^\lambda=\sum_{j=0}^{\infty} \frac{\lambda^j}{j!}$$
Poisson分布的约束还可以进一步放松, 下面的近似方法称为Poisson Paradigm: 假设有$n$个事件, $p_i$是第$i$个事件发生的概率, 都很小, 而且这些事件不独立的话相关度也要很弱, 那么这些事件发生的发生的次数近似的是一个期望为$\sum_{i=1}^n p_i$的Poisson分布.
$$ \begin{align} p(i) &={n \choose i}p^i(1-p)^{n-i}\\ &=\frac{n!}{(n-i)!i!}(\frac{\lambda}{n})^i(1-\frac{\lambda}{n})^{n-i}\\ &=\frac{\lambda^i}{i!}(1-\frac{\lambda}{n})^{n}\left[\frac{n!}{(n-i)!}(\frac{1}{n})^i(1-\frac{\lambda}{n})^{-i}\right]\\ &=\frac{\lambda^i}{i!}(1-\frac{\lambda}{n})^{n}\left[\frac{n(n-1)\cdots(n-i+1)}{n^i}(1-\frac{\lambda}{n})^{-i}\right]\\ &\rightarrow \frac{\lambda^i}{i!}e^{-\lambda} \end{align} $$
multinomial分布:实验$n$次,每次实验结果可能有$r$种,第$i$种出现的概率是$p_i$,一个configuration可以由$x_1, x_2, \cdots, x_r$每种结果出现的次数来描述。 $$P(x_1, x_2, \cdots, x_r)=\frac{n!}{\prod_{i=1}^rx_i!}\prod_{i=1}^rp_i^r$$ $k$种$n$个元素的排列。
二项分布:两种物品,n次试验,每次取一个物品。
几何分布:两种物品,k次试验,每次取一个物品,最后一次得想要的。
超几何分布:两种物品,每次试验取n个物品。
2012/03/07
概率:概念
集合能看成事件的原因是,考虑这样一个实验,从底空间中任取一个点,这个点在集合$A$里可以看成事件。
独立
事件$A, B$独立的意思是:$P(A\cap B)=P(A)P(B)$。推广到可数个独立事件的集合的意思是:其中任意$k$个事件的交集的概率等于这个$k$个事件概率的乘积。特别要指出的是两两独立推不出集合独立。
例如四个不同的事件$E_i, i=1,2,3,4$发生的概率都是1/4,定义$A_1=E_1\cup E_2$,$A_2=E_1\cup E_3$, $A_3=E_1\cup E_4$,这三个事件两两独立,但是$P(A_1\cap A_2\cap A_3)=P(E_1)=1/4$。
随即变量$X, Y$独立的意思是:他们在取值空间上诱导的$\sigma$-field独立。
$n+m$个相同的实验,$X$为前$n$个中成功的个数,$Y$为后$m$中成功的个数,$X, Y$独立。
随机变量$Y$在概率空间里诱导了一个$\sigma$-field,假设$D$这个$\sigma$-field里的一个可测集,那么$X$把这个可测集$D$映到$X$的所有可以取的值。$X, Y$独立吗?
考虑两个概率空间$\Omega_1, \Omega_2$,其上各定义了一个随机变量$X_1, X_2$,两个概率空间的笛卡尔积$\Omega_1\times \Omega_2$作为一个概率空间,新的概率测度定义为两个空间事件概率的乘积,也就是如果$\omega_1 \in \Omega_1, \omega_2 \in \Omega_2$那么$P((\omega_1, \omega_2))=P(\omega_1)P(\omega_2)$, 这显然是一个概率测度, 再定义$\bar{X_1}((\omega_1, \omega_2))=X_1(\omega_1)$, $\bar{X_2}((\omega_1, \omega_2))=X_2(\omega_2)$,那么$\bar{X_1}, \bar{X_2}$是独立的。
观察上面的两新个随机变量的逆像,如果把$\Omega_1$看成横轴那么$\bar{X_1}$的逆像只是和横轴垂直的条形,在纵轴方向无限延伸,每个逆像都是这样的,给不出任何纵轴的测度信息。
$A\cap B$和$A^c\cap B$两个集合是不相交的,不会同时发生,而且他们的并是$B$,所以$P(B)=P[(A\cap B)\cup (A^c\cap B)]=P(A\cap B) +P(A^c\cap B)$,如果$A, B$独立,那么$P(A\cap B)=P(A)P(B)$,
2012/02/27
离散化:一个数学期望的引理
引理:\(Y\)是一个非负的连续随机变量,那么\(Y\)的期望
$$E[Y]=\int_0^\infty P\{Y > y\}dy$$
证明的方法是利用交换积分的技巧。不过我们先考虑离散的情况。
\(X\)是一个离散的随机变量,\(P\{X = i\} = p_i\),那么\(X\)的期望可以写成:
$$\begin{array}{lcr}
E[X] &=& 1p_1 + 2p_2 + 3p_3 + \cdots + np_n \\
&=& 1p_1 + 1p_2 + 1p_3 + \cdots + 1p_n \\
& & + 1p_2 + 1p_3 + \cdots + 1p_n \\
& & + 1p_3 + \cdots + 1p_n \\
& & + \cdots + 1p_n \\
& & + 1p_n \\
\end{array}$$
把三角形竖着求和得到期望的定义表达方式, 如果每行求和,然后再求和得另一种表达方式
$$\sum_{j=1}^n\sum_{i=j}^nP_i=\sum_{j=1}^nP\{X\geq j\}$$
$$E[Y]=\int_0^\infty P\{Y > y\}dy$$
证明的方法是利用交换积分的技巧。不过我们先考虑离散的情况。
\(X\)是一个离散的随机变量,\(P\{X = i\} = p_i\),那么\(X\)的期望可以写成:
$$\begin{array}{lcr}
E[X] &=& 1p_1 + 2p_2 + 3p_3 + \cdots + np_n \\
&=& 1p_1 + 1p_2 + 1p_3 + \cdots + 1p_n \\
& & + 1p_2 + 1p_3 + \cdots + 1p_n \\
& & + 1p_3 + \cdots + 1p_n \\
& & + \cdots + 1p_n \\
& & + 1p_n \\
\end{array}$$
把三角形竖着求和得到期望的定义表达方式, 如果每行求和,然后再求和得另一种表达方式
$$\sum_{j=1}^n\sum_{i=j}^nP_i=\sum_{j=1}^nP\{X\geq j\}$$
Subscribe to:
Posts (Atom)