Pattern Recognition - 第三章 最大似然估计和贝叶斯参数估计

 

模式识别(Pattern Recognition)学习笔记

Pattern Recognition Maximum Likelihood Estimation Bayesian Estimation MAP

极大似然估计(Maximum Likelihood Estimation,MLE)和贝叶斯估计(Bayesian Estimation)是统计推断中两种最常用的参数估计方法,二者在机器学习中的应用也十分广泛。最大似然估计和贝叶斯估计都属于参数估计。KNN估计、Parzen窗属于非参数估计。

1 引言

参数估计和非参数估计

参数估计:要求函数的数学模型形式已知,如假定研究的问题具有正态分布或二项分布,再用已知类别的学习样本估计里面的参数,参数检验是利用总体的信息针对参数做的假设,但这种假定有时并不成立。
非参数估计又称为非参数检验:是指在不考虑原总体分布,或者不作关于参数假定的前提下,不假定数学模型,直接用已知类别的学习样本的先验知识直接进行统计检验和判断分析的一系列方法的总称。以样本信息对总体分布作出推断,针对总体分布情况做的假设。非参数估计不假定数学模型,可避免对总体分布的假定不当导致重大错误,所以常有较好的稳健性。

最大似然估计和贝叶斯参数估计区别

最大似然估计和贝叶斯估计最大区别便在于估计的参数不同,最大似然估计要估计的参数$\theta$被当作是固定形式的一个未知变量,然后我们结合真实数据通过最大化似然函数来求解这个固定形式的未知变量!
贝叶斯估计则是将参数视为是有某种已知先验分布的随机变量,意思便是这个参数他不是一个固定的未知数,而是符合一定先验分布。例如:随机变量$\theta$符合正态分布。那么在贝叶斯估计中除了类条件概率密度$p(x|\theta)$符合一定的先验分布,参数$\theta$也符合一定的先验分布。我们通过贝叶斯规则将参数的先验分布转化成后验分布进行求解!
同时在贝叶斯模型使用过程中,贝叶斯估计用的是后验概率,而最大似然估计直接使用的是类条件概率密度。

2 最大似然估计

原理

假设概率密度函数$p(X|\omega_i,\theta_i)$,估计参数$\theta_i$

样本数据$D_1,D_2,…,D_c$间服从独立同分布,使用$D_i$估计参数$\theta_i$,并且忽略其他类别的参数。

数学描述

待估计参数$\theta$是客观存在的,只是未知而已,当$\hat{\theta}$满足$\theta=\hat{\theta}$时,该组观测样本$X=(x_1,…,x_n)$更容易被观测到,我们就说$\hat{\theta}$是$\theta$的极大似然估计值。也即,估计值$\hat{\theta}$使得事件发生的可能性最大。数学描述:

\[L(X;\theta)=p(X|\theta)=p(x_1,...,x_n|\theta)=\prod \limits_{i=1}^n p(x_i|\theta)\] \[\hat{\theta}=\mathop{\arg\max}\limits_{\theta}\ L(X;\theta)\]

“无偏”和“有偏”的理解:

“无偏”和“有偏”的理解

“无偏”和“有偏”的理解


实例:

对一个独立同分布的样本集来说,总体的似然就是每个样本似然的乘积。针对抛硬币的问题,似然函数可写作:

\[L(X;\theta)=\prod \limits_{i=0}^n P(x_i|\theta)=\theta^6(1-\theta)^4\]

根据最大似然估计,使$L(X;\theta)$取得最大值的$\theta$即为估计结果,令$L(X;\theta)^{‘}=0$可得$\hat{\theta}=0.6$。

3 最大后验概率估计(MAP)

最大后验概率估计,英文为Maximum A Posteriori Estimation,简写为MAP。回到抛硬币的问题,最大似然估计认为使似然函数$P(X|\theta)$最大的参数$\theta$即为最好的$\theta$,此时最大似然估计是将$\theta$看作固定的值,只是其值未知;最大后验概率分布认为$\theta$是一个随机变量,即$\theta$具有某种概率分布,称为先验分布,求解时除了要考虑似然函数$P(X|\theta)$之外,还要考虑$\theta$的先验分布$P(\theta)$,因此其认为使$p(X|\theta)P(\theta)$取最大值的$\theta$就是最好的$\theta$。此时要最大化的函数变为$P(X|\theta)P(\theta)$,由于$X$的先验分布$P(X)$是固定的(可通过分析数据获得,其实我们也不关心$X$的分布,我们关心的是$\theta$),因此最大化函数可变为$\frac{p(X|\theta)P(\theta)}{P(X)}$,根据贝叶斯法则,要最大化的函数$\frac{p(X|\theta)P(\theta)}{P(X)}=P(\theta|X)$,因此要最大化的函数是$P(\theta|X)$,而$P(\theta|X)$是$\theta$的后验概率。最大后验概率估计可以看作是正则化的最大似然估计,当然机器学习或深度学习中的正则项通常是加法,而在最大后验概率估计中采用的是乘法,$P(\theta)$是正则项。在最大似然估计中,由于认为$\theta$是固定的,因此$P(\theta)=1$。最大后验概率估计的公式表示:

\[\mathop{\arg\max}\limits_{\theta} P(\theta|X)=\mathop{\arg\max}\limits_{\theta} \frac{p(X|\theta)P(\theta)}{P(X)} \propto \mathop{\arg\max}\limits_{\theta} p(X|\theta)P(\theta)\]

4 贝叶斯估计

贝叶斯估计是典型的贝叶斯学派观点,它的基本思想是:待估计参数$\theta$也是随机的,和一般随机变量没有本质区别,因此只能根据观测样本估计参数$\theta$的分布。

4.1 贝叶斯估计核心问题

这里定义已有的样本集合为$D$,而不是之前的$x$。样本集合$D$中的样本都是从一个固定但是未知的概率密度函数$p(x)$中独立抽取出来的,要求根据这些样本估计$x$的概率分布,记为$p(x|D)$,并且使得$p(x|D)$尽量的接近$p(x)$,这就是贝叶斯估计的核心问题。

4.2 贝叶斯公式的密度函数形式

贝叶斯统计学的基础是著名的贝叶斯公式,它是英国学者贝叶斯(T.R.Bayes1702~1761)在他死后二年发表的一篇论文《论归纳推理的一种方法》中提出的。经过二百年的研究与应用,贝叶斯的统计思想得到很大的发展,目前已形成一个统计学派—贝叶斯学派。为了纪念他,英国历史最悠久的统计杂志《Biometrika》在1958年又全文刊登贝叶斯的这篇论文。

初等概率论中的贝叶斯公式是用事件的概率形式给出的。可在贝叶斯统计学中应用更多的是贝叶斯公式的密度函数形式。下面结合贝叶斯统计学的基本观点来引出其密度函数形式。贝叶斯统计学的基本观点可以用下面三个观点归纳出来。

假设I 随机变量$x$有一个密度函数$p(x;\theta)$,其中$\theta$是一个参数,不同的$\theta$对应不同的密度函数,故从贝叶斯观点看,$p(x;\theta)$是在给定$\theta$后$x$的条件密度函数,因此记为$p(x|\theta)$更恰当一些。这个条件密度能提供我们的有关的$\theta$信息就是总体信息。

假设II 当给定$\theta$后,从总体$p(x|\theta)$中随机抽取一个样本$D=x_1,…,x_n$,该样本中含有$\theta$的有关信息。这种信息就是样本信息。

假设III 我们对参数$\theta$已经积累了很多资料,经过分析、整理和加工,可以获得一些有关$\theta$的有用信息,这种信息就是先验信息。参数$\theta$不是永远固定在一个值上,而是一个事先不能确定的量。从贝叶斯观点来看,未知参数$\theta$是一个随机变量。而描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为先验分布,其密度函数用$\pi(\theta)$表示。

先验分布 将总体中的未知参数$\theta \in \Theta $看成一取值于$\Theta$的随机变量,它有一概率分布,记为$\pi(\theta)$,称为参数$\theta$的先验分布。
后验分布 在贝叶斯统计学中,把以上的三种信息归纳起来的最好形式是在总体分布基础上获得的样本$x_1,…,x_n$,和参数的联合密度函数。

\[p(x_1,...,x_n,\theta)=p(x_1,...,x_n|\theta)\pi(\theta)\]

在这个联合密度函数中。当样本$x_1,…,x_n$给定之后,未知的仅是参数$\theta$了,我们关心的是样本给定后,$\theta$的条件密度函数,依据密度的计算公式,容易获得这个条件密度函数。

\[\pi(\theta|x_1,...,x_n)=\frac{p(x_1,...,x_n,\theta)}{p(x_1,...,x_n)}=\frac{p(x_1,...,x_n|\theta)\pi(\theta)}{\int p(x_1,...,x_n|\theta)\pi(\theta)d\theta}\]

这就是贝叶斯公式的密度函数形式,其中$\pi(\theta|x_1,…,x_n)$称为$\theta$的后验密度函数,或后验分布。在连续型随机变量中:

\[p(x_1,...,x_n)=\int p(x_1,...,x_n|\theta)\pi(\theta)d\theta\]

是样本的边际分布,或称样本$x_1,…,x_n$的无条件分布,它的积分区域就是参数$\theta$的取值范围,随具体情况而定。

前面的分析总结如下:人们根据先验信息对参数$\theta$已有一个认识,这个认识就是先验分布$\pi(\theta)$。通过试验,获得样本。从而对$\theta$的先验分布进行调整,调整的方法就是使用上面的贝叶斯公式,调整的结果就是后验分布$\pi(\theta|x_1,…,x_n)$。后验分布是三种信息的综合。获得后验分布使人们对$\theta$的认识又前进一步,可看出,获得样本的的效果是把我们对$\theta$的认识由$\pi(\theta)$调整到$\pi(\theta|x_1,…,x_n)$。所以对$\theta$的统计推断就应建立在后验参数分布$\pi(\theta|x_1,…,x_n)$的基础上。

4.3 贝叶斯估计常用方法

$\pi(\theta|x_1,…,x_n)$被称作后验参数分布(后验概率),使用它估计有三种常用的方法:

  • 使用后验分布的密度函数最大值点作为的点估计的最大后验估计(MAP)。

  • 使用后验分布的中位数作为的点估计的后验中位数估计(基本没看到用过)。

  • 使用后验分布的均值作为的点估计的后验期望估计。

使后验密度$\pi(\theta|x)$达到最大的值$\theta_{MD}$称为最大后验估计;后验分布的中位数$\hat{\theta_{Me}}$称为后验中位数估计;后验分布的期望值$\hat{\theta_E}$称为$\theta$的后 验期望值估计,这三个估计都称为贝叶斯估计,记为$\hat{\theta_B}$。

用的最多的是后验期望估计,它一般也直接简称为贝叶斯估计。

参考:

PDF 第六章 贝叶斯估计

【数学基础】参数估计之贝叶斯估计

贝叶斯估计、最大似然估计、最大后验概率估计