拉普拉斯近似和对数模型证据

2021-11-21 by 张洳源

经常看到在贝叶斯建模的过程中用到拉普拉斯近似(laplacian approximation, LA)和对数模型证据(log model evidence, LME)。一直没有找到特别好的中文教程，有一些machine learning方面的介绍，与实际认知建模的联系不紧密。所以这里把一些概念理清。

最大后验概率估计

讲拉普拉斯近似和对数模型证据之前，首先需要明白的一个概念是最大后验概率估计(maximum a posteriori estimation，MAP)。我们先从最大似然估计(maximum likelihood estimation, MLE)开始。

$D$ $M$ $\theta$ $\theta$ $d>1$ $\theta$ $p(D|\theta,M)$ $\hat{\theta}$ $\hat{\theta}=\mathop{\arg\max}\limits_{\theta}[p(D|\theta, M)]$ ,也等价于最小化negative log likelihood,

\begin{matrix} (1) & \hat{θ} = \underset{θ}{\arg min} [- l o g (p (D | θ, M))] \end{matrix}

$p(\theta|D,M)$ ，根据贝叶斯公式，可以写成

\begin{matrix} (2) & p (θ | D, M) = \frac{p (D | θ, M) * p (θ | M)}{p (D | M)} \end{matrix}

$\hat{\theta}=\mathop{\arg\max}\limits_{\theta}[p(\theta|D,M)]$ $p(D|M)$ $\hat{\theta}=\mathop{\arg\max}\limits_{\theta}[p(D|\theta,M)*p(\theta|M)]$ $p(\theta|M)$ $\theta$ 的先验分布，可以在具体的建模的过程中指定。那么其实等价于最小化negative log probability，即

\begin{matrix} (3) & \hat{θ} = \underset{θ}{\arg min} [- l o g (p (D | θ, M)) - l o g (p (θ | M))] \end{matrix}

$-log(p(\theta|M)$ 。以上无论是MLE还是MAP的优化过程，目前都可以在matlab或者python里面利用相关数值方法(e.g., matlab里面的fminsearch或者fmincon)进行求解。

模型证据

$p(D|M)$ $\theta$ $\theta$ $M$ $D$ 。模型证据可以有

\begin{matrix} (4) & p (D | M) = \int_{θ} p (D | θ, M) * p (θ | M) d θ = \int_{θ} p (D, θ | M) d θ \end{matrix}

现在的问题就是如何求解这个积分。

拉普拉斯近似求解模型证据

公式(4)中的积分一般情况下很难通过解析的方式求出，我们可以进行泰勒展开进行近似求解

\begin{aligned} p (D | M) & = \int_{θ} p (D, θ | M) d θ \\ = \int_{θ} \exp \log (p (D, θ | M) d θ \\ \approx \int_{θ} \exp {\log (p (D, \hat{θ} | M) + \overset{= 0 (\hat{θ} i s a t t h e m o d e)}{\overset{⏞}{\nabla \log (p (D, \hat{θ} | M)}} (θ - \hat{θ}) + \frac{1}{2} (θ - \hat{θ})^{T} \overset{= - A (H e s s i a n m a t r i x)}{\overset{⏞}{\nabla^{2} \log (p (D, \hat{θ} | M)}} (θ - \hat{θ})} d θ \\ = \int_{θ} \exp \log (p (D, \hat{θ} | M) * \exp {\frac{1}{2} (θ - \hat{θ})^{T} \overset{= - A (H e s s i a n m a t r i x)}{\overset{⏞}{\nabla^{2} \log (p (D, \hat{θ} | M)}} (θ - \hat{θ})} d θ \\ = p (D, \hat{θ} | M) * \int_{θ} e x p (\frac{1}{2} (θ - \hat{θ})^{T} \overset{= - A (H e s s i a n m a t r i x)}{\overset{⏞}{\nabla^{2} \log (p (D, \hat{θ} | M)}} (θ - \hat{θ})) d θ \\ = p (D, \hat{θ} | M) * \int_{θ} e x p (- \frac{1}{2} (θ - \hat{θ})^{T} (A^{- 1})^{- 1} (θ - \hat{θ})) d θ \\ = p (D, \hat{θ} | M) * (2 π)^{\frac{d}{2}} * | A^{- 1} |^{\frac{1}{2}} \overset{i n t e g r a t i o n o f m u l t i v a r i a t e G a u s s i a n d i s t r i b u t i o n}{\overset{⏞}{\int_{θ} \frac{1}{(2 π)^{\frac{d}{2}} * | A^{- 1} |^{\frac{1}{2}}} e x p (- \frac{1}{2} (θ - \hat{θ})^{T} (A^{- 1})^{- 1} (θ - \hat{θ})) d θ}} \\ = p (D, \hat{θ} | M) * (2 π)^{\frac{d}{2}} | A^{- 1} |^{\frac{1}{2}} \\ = p (D, \hat{θ} | M) * (2 π)^{\frac{d}{2}} | A |^{- \frac{1}{2}} \\ = p (D | \hat{θ}, M) p (\hat{θ} | M) * (2 π)^{\frac{d}{2}} | A |^{- \frac{1}{2}} \end{aligned}

$log(p(D,\theta|M)$ $\hat\theta$ $\hat\theta$ $log(p(D,\theta|M)$ $\hat\theta$ $\nabla\log(p(D,\hat\theta|M)$ 为0，那么展开第二项就可以消掉。

\begin{matrix} (5) & l o g (p (D | M)) = l o g (p (D | \hat{θ}, M)) + l o g (p (\hat{θ} | M)) + \frac{d}{2} l o g (2 π) - \frac{1}{2} l o g (| A |) \end{matrix}

$\theta$ $p(\hat\theta|M)$ 是自己指定的，带有一定的主观性。

模型证据和贝叶斯因子

$M_a$ $M_b$ 的贝叶斯因子为两个模型证据的比值

\begin{matrix} (6) & \begin{matrix} B F = \frac{p (D | M_{a})}{p (D | M_{b})} \\ l o g (B F) = l o g (p (D | M_{a})) - l o g (p (D | M_{b})) \end{matrix} \end{matrix}

在实际做模型的过程中，通常可以先求出两个模型的LME，然后再计算出BF。

对数模型证据和负变分自由能

在文献中经常看到一句话，LME即为负变分自由能(negative variational free energy)，那么一个模型越好，说明LME最大化，也就是负变分自由能(negative variational free energy)最大，也等价于最小化variational free energy，这个和Karl Friston的自由能理论是一致。我在What is free energy? 一文中对两个关系进行了阐述。在这篇文章中，我们得到

\begin{matrix} (7) & F = - l o g (p (D | M)) + D_{K L} [q (θ) | | p (θ | D, M)] \end{matrix}

$q(\theta)$ $p(\theta|D,M)$ $D_{KL}[q(\theta)||p(\theta|D,M)]=0$ $F=-log(p(D|M))$ 。而F就是变分自由能，那么LME是负变分自由能就很好理解了。