What is free energy?

2020-07-17 by 张洳源

Karl Friston的理论是个很难懂的理论，曾经有在哥伦比亚大学的各领域专家聚集在一起也看不懂他的理论。https://www.lesswrong.com/posts/wpZJvgQ4HvJE2bysy/god-help-us-let-s-try-to-understand-friston-on-free-energy

我也没看到有什么中文靠谱的解释，大部分解释就是把Karl说的英文翻译成中文而已。

看懂Friston的自由能理论，需要一些预先知识。我个人建议先完全不要去看他的东西，但是需要搞清楚以下几个概念，

变分推断，贝叶斯推断里面的model evidence，生成模型等。

其中最关键的就是变分推断，我发现身边的心理学家或者神经科学家其实很少有人能弄懂变分推断的。我大概是2015年看到这个理论，当时读friston的paper也是完全抓瞎，直到我最近理解了变分推断，才算大概明白了自由能原理。

另外，个人不建议看Karl Friston的原文。Karl Friston是个天才，但是他写作有问题，不能把自己的观点用简单的语言表达出来。我个人建议看Sam Gershman的这篇解读，我觉得写得非常好。http://gershmanlab.webfactional.com/pubs/free_energy.pdf

我们就按照维基上对free energy principle的介绍，从贝叶斯变分推断讲起，慢慢推过去。

https://en.wikipedia.org/wiki/Free_energy_principleen.wikipedia.org

$s$ $\phi$ $s$ $p(\phi|s)$ 。这是认知科学中所有贝叶斯模型的最基本思想。

\begin{array}{r} (1) & p (ϕ | s) = \frac{p (s, ϕ)}{p (s)} \\ (2) & p (s) = \frac{p (s, ϕ)}{p (ϕ | s)} \\ (3) & l o g (p (s)) = l o g (p (ϕ, s)) - l o g (p (ϕ | s)) \end{array}

公式(1)是贝叶斯推断的基本形式，然后很容易推到公式(3)。

$p(\phi|s)$ $q(\phi)$

\begin{matrix} (4) & l o g (p (s)) = l o g (\frac{p (ϕ, s)}{q (ϕ)}) - l o g (\frac{p (ϕ | s)}{q (ϕ)}) \end{matrix}

$q(\phi)$ $q(\phi)$ 期望，就有

\begin{array}{r} (5) & \int l o g (p (s)) q (ϕ) d ϕ = \int l o g (\frac{p (ϕ, s)}{q (ϕ)}) q (ϕ) d ϕ - \int l o g (\frac{p (ϕ | s)}{q (ϕ)}) q (ϕ) d ϕ \\ (6) & l o g (p (s)) = \int l o g (\frac{p (ϕ, s)}{q (ϕ)}) q (ϕ) d ϕ - \int l o g (\frac{p (ϕ | s)}{q (ϕ)}) q (ϕ) d ϕ \end{array}

$log(p(s))$ $\phi$ $F(s)$ $q(\phi)$ $p(\phi|s)$ 的KL divergence。

\begin{array}{r} (7) & F (s) = - \int l o g (\frac{p (ϕ, s)}{q (ϕ)}) q (ϕ) d ϕ = - E_{q} (l o g (\frac{p (ϕ, s)}{q (ϕ)}) \\ (8) & D_{K L} [q (ϕ) | | p (ϕ | s)] = - \int l o g (\frac{p (ϕ | s)}{q (ϕ)}) q (ϕ) d ϕ \end{array}

那么公式(6)可以重新被表示成

\begin{array}{r} (9) & l o g (p (s)) = - F (s) + D_{K L} [q (ϕ) | | p (ϕ | s)] \\ (10) & F (s) = - l o g (p (s)) + D_{K L} [q (ϕ) | | p (ϕ | s)] \end{array}

$p(\phi|s)$ $q(\phi)$ $q(\phi)$ $p(\phi|s)$ $D_{KL}[q(\phi) || p(\phi|s)]$ $D_{KL}[q(\phi) || p(\phi|s)]>=0$ $-log(p(s))$ $D_{KL}[q(\phi) || p(\phi|s)]$ $F(s)$ $F(s)$ $D_{KL}[q(\phi) || p(\phi|s)]$ 也就越小。

$F(s)$ $D_{KL}[q(\phi) || p(\phi|s)]$

以上内容，和大脑其实无关，我只不过重复了一遍机器学习里面变分推断的原理，是为了说明，minimize free energy其实就是贝叶斯推断中变分推断这一种特殊形式，目的就是求后验概率，只不过换了个名字而已。

所以说，Karl Friston说的minimize free energy，不是什么玄学。就是认知神经科学当中经常说的贝叶斯推断，也就是说我们人脑在做贝叶斯推断时候，不过是用变分推断来求解后验概率的过程，这就是minimize free energy。

我们继续来看一下https://en.wikipedia.org/wiki/Free_energy_principle上面给出的公式

\begin{matrix} (12) & F (s, u) = - l o g (s | m) + D_{K L} [q (ϕ | u) | | p (ϕ | s, m)] \end{matrix}

$u$ $m$ 这两项的，这又是什么意思呢？

$m$ $m$ $\phi$ $m$ $\phi$ $m$ $\phi$ 高一级，联合sensory state在一起，数学关系就是:

\begin{matrix} (13) & p (s | m) = \int p (s | ϕ) p (ϕ | m) d ϕ \end{matrix}

$-log(p(s))$ $-log(p(s|m))$ $p(s|m)$ ，但是它肯定还是个定值。

$u$ $q(\phi)$ $q(\phi)$ $q(\phi)$ $q(\phi|u)$ 。

那么，如果做以上的替换，我们可以把上面公式(7)(8)(10)替换成以下形式

\begin{array}{r} (14) & F (s, u) = - \int l o g (\frac{p (ϕ, s | m)}{q (ϕ | u)}) q (ϕ | u) d ϕ = - E_{q} (l o g (\frac{p (ϕ, s | m)}{q (ϕ | u)})) \\ (15) & D_{K L} [q (ϕ | u) | | p (ϕ | s, m)] = - \int l o g (\frac{p (ϕ | s, m)}{q (ϕ | u)}) q (ϕ | u) d ϕ \\ (16) & F (s, u) = - l o g (s | m) + D_{K L} [q (ϕ | u) | | p (ϕ | s, m)] \end{array}

这就是Karl Friston minimize free energy理论的完整表达式，其中公式(16)和Wikipedia上面给出的公式(12)一致。

在Wikipedia上面还讲了minimize free energy理论和predictive coding, optimal control, active inference等多个概念的关系。我当然没有读完所有列出的论文，也绝不敢说理解了他说的每一句话，但是有了上面这个基础，去理解其他概念可能稍微容易点。