概率论基础

无条件概率、条件概率、联合概率的性质和关系:

p(xi,yj)=p(xi)p(yjxi)=p(yj)p(xiyj)p(x_i,y_j)=p(x_i)p(y_j|x_i)=p(y_j)p(x_i | y_j)

当X与Y相互独立时:

p(xi,yj)=p(xi)p(yj)p(yjxi)=p(yj)p(xiyj)=p(xi)p(x_i,y_j)=p(x_i)p(y_j) \\ p(y_j|x_i) =p(y_j) \\ p(x_i | y_j) = p(x_i)

条件概率用联合概率求和的方式表示:

p(xiyj)=p(xi,yj)i=1np(xi,yj)p(yjxi)=p(xi,yj)j=1mp(xi,yj)p(x_i|y_j)= \cfrac{p(x_i,y_j)}{\displaystyle\sum_{i=1}^{n} p(x_i,y_j)} \\ p(y_j|x_i)= \cfrac{p(x_i,y_j)}{\displaystyle\sum_{j=1}^{m} p(x_i,y_j)}

这就说明了一个公式:p(y=j)=ip(xi,y=j)p(y=j)= \displaystyle\sum_{i} p(x_i,y=j)

离散信源概率空间

[XP]=[x1x2xnp(x1)p(x2)p(xn)]\left[\begin{array}{l} X \\ P \end{array}\right]=\left[\begin{array}{cccc} x_{1} & x_{2} & \cdots & x_{n} \\ p\left(x_{1}\right) & p\left(x_{2}\right) & \cdots & p\left(x_{n}\right) \end{array}\right]

样本空间:某事物各种可能出现的不同状态
先验概率p(xi)p(x_i):选择符号xix_i作为消息的概率

自信息量

定义具有概率为p(xi)p(x_i)的符号xix_i的自信息量为:

I(xi)=log2p(xi)I(x_i)=-\log_2 p(x_i)

常用的对数底数为2,单位为比特(bit);若取自然对数,单位为奈特(nat);若以10为对数底数,单位为笛特(det)

I(xi)I(x_i)的两个含义:

  1. 当事件xix_i发生以前,表示事件xix_i发生的 不确定性
  2. 当事件xix_i发生以后,表示事件xix_i所含有的 信息量

随机事件的 不确定度 在数量上等于它的 自信息量 ,两者的单位相同,但含义却不相同。

I(xi)I(x_i)的特性:

  1. 非负性:I(xi)0I(x_i)\geqslant 0
  2. p(xi)=1,I(xi)=0p(x_i)=1,I(x_i)=0
  3. p(xi)=0,I(xi)=p(x_i)=0,I(x_i)=\infty
  4. I(xi)I(x_i) 是先验概率 p(xi)p(x_i) 的单调递减函数 :若p(x1)<p(x2)p(x_1)<p(x_2),则I(x1)>I(x2)I(x_1)>I(x_2)
  5. 可加性:若有两个符号xi,yjx_i,y_j同时出现,可用联合概率p(xi,yj)p(x_i,y_j)来表示,这时的自信息量为I(xi,yj)=logp(xi,yj)I(x_i,y_j)=-\log p(x_i,y_j)。当xix_iyjy_j相互独立时,有p(xiyj)=p(xi)p(yj)p(x_iy_j)=p(x_i)p(y_j),则有I(xi,yj)=I(xi)+I(yj)I(x_i,y_j)=I(x_i)+I(y_j)

如果两个符号出现不是独立的,二是有相互联系的,这时可用条件概率p(xiyj)p(x_i|y_j)来表示,即在符号yjy_j出现的条件下,符号xix_i出现的概率。则它的条件自信息量定义为:

I(xiyj)=logp(xiyj)I(x_i|y_j) = -\log p(x_i | y_j)

上式表示在给定yjy_j的条件下,符号xix_i出现时收信者得到的信息量。又因为p(xi,yj)=p(xiyj)p(yj)p(x_i,y_j)=p(x_i | y_j)p(y_j),则有I(xi,yj)=I(xiyj)+I(yj)I(x_i,y_j)=I(x_i | y_j)+I(y_j),即符号xi,yjx_i,y_j同时出现的信息量等于yjy_j出现的信息量加上yjy_j出现后再出现xix_i的信息量。(I(xi,yj)I(x_i,y_j)称为联合自信息量,I(xiyj)I(x_i|y_j)称为条件自信息量)

离散信源熵

离散信源熵又称为平均不确定度或平均信息量,它的定义是信源中各个符号不确定度的数学期望:

H(X)=ip(xi)I(xi)=ip(xi)logp(xi)H(X)=\sum_i p(x_i)I(x_i) =- \sum_i p(x_i) \log p(x_i)

单位为bit/符号或bit/符号序列

特殊的,如果样本空间为NN,而且都是等概率事件,那么该信源熵为H(X)=logNH(X)=\log N,并且等概的信源熵最大

条件熵

在给定的yjy_j条件下,xix_i的条件自信息量为I(xiyj)I(x_i|y_j)XX集合的条件熵为:

H(Xyj)=ip(xiyj)I(xiyj)H(X|y_j)=\sum_i p(x_i|y_j) I(x_i|y_j)

进一步地在给定YY的条件下,XX集合的条件熵定义为:

H(XY)=jp(yj)H(Xyj)=ijp(yj)p(xiyj)I(xiyj)=ijp(xi,yj)I(xiyj)\begin{aligned} H(X|Y)&=\sum_j p(y_j)H(X|y_j) \\ &= \sum_{ij} p(y_j)p(x_i|y_j)I(x_i|y_j) \\ &= \sum_{ij} p(x_i,y_j)I(x_i|y_j) \end{aligned}

联合熵

联合熵是联合符号集合(X,Y)\left( X,Y \right)上的每个元素对(xi,yj)\left( x_i,y_j \right)的自信息量的概率加权统计平均值

H(X,Y)=ijp(xi,yj)I(xi,yj)H(X,Y)=\sum_{ij}p(x_i,y_j)I(x_i,y_j)

联合熵与熵和条件熵之间的关系:

H(X,Y)=H(X)+H(YX)=H(Y)+H(XY)H(X,Y)=H(X)+H(Y|X)=H(Y)+H(X|Y)