Variational Autoencoder (VA)

$x$ $z$ $p(x|z)$ $x$ $z$ $z$ $p(z)$ 。这相当于以下简单的图形模型

\begin{matrix} (1) & z \to x \end{matrix}

潜变量模型中的学习

$p(x|z)$ $p(z)$ $p(x|z)$ $x$ $p(x)$ $p(x|z)$ $p(x|z)$ $\theta$ ，我们需要解决以下优化问题

\begin{matrix} (2) & \underset{θ}{m a x} p_{θ} (x) \end{matrix}

$p_\theta(x)=\int_zp(z)p_\theta(x|z)$ $z$ 的积分，但却有可能没有解析解。

潜变量模型的后验推断

$p(z|x)$ $p(z)$ $p(x|z)$ $p(z|x)$ $z$ $p(z|x) = \frac{p(x,z)}{\int_zp(x,z)}$ $p(z|x)$ $p(z|x)$ $q(z|x)$ 。这可以形式化为解决以下优化问题

\begin{matrix} (3) & \underset{ϕ}{m i n} K L (q_{ϕ} (z | x) | | p (z | x)) \end{matrix}

$\phi$ $q$ $KL(q||p)$ $q$ $p$ ${\rm KL}(q||p) = \int_xq(x) {\rm log} \frac{q(x)}{p(x)}$ $p(z|x)$ 。让我们看看能否解决这个问题。根据 KL 的定义，我们可以写出

\begin{matrix} (1) & \begin{aligned} KL (q_{ϕ} (z | x) | | p (z | x)) & = \int_{z} q_{ϕ} (z | x) \log \frac{q_{ϕ} (z | x)}{p (z | x)} \\ = \int_{z} q_{ϕ} (z | x) \log \frac{q_{ϕ} (z | x) p (x)}{p (x, z)} \\ = \int_{z} q_{ϕ} (z | x) \log \frac{q_{ϕ} (z | x)}{p (x, z)} + \int_{z} q_{ϕ} (z | x) \log p (x) \\ = - L (ϕ) + \log p (x) \end{aligned} \end{matrix}

其中我们定义了

\begin{matrix} (4) & L (ϕ) = \int_{z} q_{ϕ} (z | x) \log \frac{p (x, z)}{q_{ϕ} (z | x)} \end{matrix}

$p(x)$ $q_\phi(z|x)$ ${KL}(q_\phi(z|x)||p(z|x))$ $\mathcal{L}(\phi)$ $\mathcal{L}(\phi)$ $p(x,z) = p(z)p(x|z)$ ，不涉及任何难解的积分。因此，我们可以通过求解下面的优化问题，对潜变量模型的后验进行变分推断

\begin{matrix} (5) & \underset{ϕ}{m a x} L (ϕ) \end{matrix}

回到学习问题

$p(x|z)$ $\mathcal{L}(\phi)$ $p(x)$ 的对数概率的下限

\begin{matrix} (2) & \begin{aligned} KL (q_{ϕ} (z | x) | | p (z | x)) & = - L (ϕ) + \log p (x) \\ L (ϕ) & = \log p (x) - KL (q_{ϕ} (z | x) | | p (z | x)) \\ L (ϕ) & \leq \log p (x) \end{aligned} \end{matrix}

$q$ $p_\theta(x|z)$ $\mathcal{L}$ $\theta$ $\mathcal{L}(\theta) = \int_z q(z|x) {\rm log} \frac{p_\theta (x|z)p(z)}{q(z|x)}$ $\mathcal{L}$ $log p(x)$ $\mathcal{L}$ ${\rm log} p(x)$ $q(z|x) = p(z|x)$ $\mathcal{L}(\theta) = \log p(x)$ $\mathcal{L}$ $p(x)$ $\phi$ $\theta$ $\mathcal{L}$ $q_\phi(z|x)$ $p_\theta(x|z)$ 的目的:

\begin{matrix} (6) & \underset{θ, ϕ}{m a x} L (θ, ϕ) \end{matrix}

在这里

\begin{aligned} L (θ, ϕ) & = \int_{z} q_{ϕ} (z | x) \log \frac{p (z) p_{θ} (x | z)}{q_{ϕ} (z | x)} \\ = E_{q} [\log \frac{p (z) p_{θ} (x | z)}{q_{ϕ} (z | x)}] \end{aligned}

关于期望最大化（ expectation maximization, EM）的简单介绍

$\theta$ $p_\theta(x)$ $q_\phi(z|x)$ $q_\phi(z|x)$ $\mathcal{L}$ $\theta$ $\phi$ $\theta$ $\mathcal{L}$ 最大化。

解决公式（6）中的最大化问题

$\mathcal{L}(\theta,\phi)$ $z^{(l)}, l = 1...L$ $\mathcal{L}$ 进行如下蒙特卡罗估计

\begin{matrix} (8) & \begin{matrix} L (θ, ϕ) \approx \frac{1}{L} \sum_{l = 1}^{L} \log p_{θ} (x, z^{(l)}) - \log q_{ϕ} (z^{(l)} | x) \\ where z^{(l)} \sim q_{ϕ} (z | x) \end{matrix} \end{matrix}

$p_\theta(x,z) = p(z)p_\theta(x|z)$ $\theta$ $\theta$ 只出现在总和(sum)的内部。

\begin{matrix} (9) & \begin{matrix} \nabla_{θ} L (θ, ϕ) \approx \frac{1}{L} \sum_{l = 1}^{L} \nabla_{θ} \log p_{θ} (x, z^{(l)}) \\ where z^{(l)} \sim q_{ϕ} (z | x) \end{matrix} \end{matrix}

$\phi$ $\mathcal{L}$ $q_\phi(z|x)$ $q_\phi(z|x)$ $\phi$ $∇_\phi \mathbb{E}q_\phi[f(z)] \neq \mathbb{E}q_\phi[∇_\phi f(z)]$ $f(z) = \log p_\theta(x,z^{(l)})-\log q_\phi (z^{(l)} |x)$ $∇_\phi \mathcal{L}(\theta, \phi)$ 进行了更有效的估计，这依赖于所谓的重参化技巧。

重参化技巧

$\mathbb{E}q_{\phi(z|x)}[f(z)]$ $\phi$ $\phi$ $\phi$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi(z|x)$ 的样本。

\begin{matrix} (10) & z = g_{ϕ} (ϵ, x) with ϵ \sim p (ϵ) \end{matrix}

$\mathbb{E}q_{\phi(z|x)}[f(z)]$ 改写如下

\begin{matrix} (11) & E_{q_{ϕ} (z | x)} [f (z)] = E_{p (ϵ)} [f (g_{ϕ} (ϵ, x))] \end{matrix}

$p(\epsilon)$ $\epsilon^{(l)}, l = 1 ... L$ $\mathcal{L}(\theta, \phi)$ 进行蒙特卡罗估计

\begin{matrix} (12) & \begin{array}{r} L (θ, ϕ) \approx \frac{1}{L} \sum_{l = 1}^{L} \log p_{θ} (x, z^{(l)}) - \log q_{ϕ} (z^{(l)} | x) \\ where z^{(l)} = g_{ϕ} (ϵ^{(l)}, x) and ϵ^{(l)} \sim p (ϵ) \end{array} \end{matrix}

$\phi$ $\mathcal{L}$ $\phi$ $\theta$ $∇\phi\mathcal{L}(\theta, \phi)$ $q_\phi (z|x)$ $p(\epsilon)$ $g_\phi$ （有关的方法，请参见原始论文[1]）。我们将在下文讨论VA时看到多元高斯分布的例子。

变分自动编码器（Variational Autoencoder, VA）

$q_\phi (z|x)$ $p_\theta(x, z)$ $x$ $\mu_\phi$ $\sigma_\phi$ $x$ 映射到均值向量和标准偏差向量。

\begin{matrix} (13) & q_{ϕ} (z | x) = N (z; μ_{ϕ} (x), σ_{ϕ} (x) I) \end{matrix}

$p_\theta(x, z)$ $p(z)$ $p(z) = \mathcal{N} (0, \mathbf{I})$ $p_\theta(x|z)$ $x$ $x$ $x$ $p_\theta(x|z)$ $p_\theta(x|z)$ $\mu_\theta$ $\sigma_\theta$ $z$ 映射到均值向量和标准偏差向量。

\begin{matrix} (14) & p_{θ} (x | z) = N (x; μ_{θ} (z), σ_{θ} (z) I) \end{matrix}

看看这个模型的网络结构，我们就知道为什么它被称为自动编码器了。

\begin{matrix} (15) & x \overset{q_{ϕ} (z | x)}{\to} z \overset{p_{θ} (x | z)}{\to} x \end{matrix}

$q_\phi$ $x$ $z$ $p_\theta$ $z$ 以概率方式映射回输入空间。

$\theta$ $\phi$ $q_\phi(z|x)$ $z^{(l)},l = 1...L$ $\mathcal{L}(\theta, \phi)$ $\theta$ $\phi$ $p(\epsilon)$ $g_\phi$ $q_\phi(z|x)$ $p(\epsilon)\sim\mathcal{N}(\epsilon;0,\mathbf{I})$ $z = g_\phi(\epsilon, x) = \mu_\phi(x) + \epsilon\odot\sigma_\phi(x)$ $z$ $q_\phi(z|x) ∼ \mathcal{N}(z; \mu_\phi(x), \sigma_\phi(x))$ $q_\phi$ 的这种重参化将变分下界重写如下

\begin{matrix} (16) & \begin{aligned} L (θ, ϕ) & \approx \frac{1}{L} \sum_{l = 1}^{L} \log p_{θ} (x, z^{(l)}) - \log q_{ϕ} (z^{(l)} | x) \\ where z^{(l)} & = μ_{ϕ} (x) + ϵ ⊙ σ_{ϕ} (x) and ϵ^{(l)} \sim N (ϵ; 0, I) \end{aligned} \end{matrix}

$p_\theta(x，z)$ $p(z)p_\theta(x|z)$ ，我们可以看到

\begin{matrix} (3) & \begin{aligned} L (θ, ϕ) & = E_{q} [\log \frac{p (z) p_{θ} (x | z)}{q_{ϕ} (z | x)}] & (17) \\ = E_{q} [\log \frac{p (z)}{q_{ϕ} (z | x)}] + E_{q} [p_{θ} (x | z)] & (18) \\ = - KL (q_{ϕ} (z | x) | | p (z)) + E_{q} [p_{θ} (x | z)] & (19) \\ (20) \end{aligned} \end{matrix}

$p(z)$ $q_\phi(z|x)$ 都是高斯分布，因此 KL 项有一个封闭的表达式。将其插入，我们就得到了下面的变分下界表达式。

\begin{matrix} (21) & \begin{array}{r} L (θ, ϕ) \approx \frac{1}{2} \sum_{d = 1}^{D} (1 + \log (σ_{ϕ, d}^{2} (x)) - μ_{ϕ, d}^{2} (x) - σ_{ϕ, d}^{2} (x)) + \frac{1}{L} \sum_{l = 1}^{L} \log p_{θ} (x | z^{(l)}) \\ where z^{(l)} = μ_{ϕ} (x) + ϵ ⊙ σ_{ϕ} (x) and ϵ^{(l)} \sim N (ϵ; 0, I) \end{array} \end{matrix}

$z$ $D$ $\mu_{\phi ,d}$ $\sigma_{\phi,d}$ $z$ $d$ $N$ $M$ $x^{(i)}$ $\{x^i\},i=1...M$ $\mathcal{L}(\theta, \phi)$ 的简单平均值。

\begin{matrix} (22) & L (θ, ϕ; {x^{i}}_{i = 1}^{M}) \approx \frac{N}{M} \sum_{i = 1}^{M} L (θ, ϕ; x^{(i)}) \end{matrix}

$\mathcal{L}(\theta,\phi;x^{(i)})$ $\theta$ $\phi$ ，我们可以求出上述表达式的导数，并将其用于随机梯度上升过程。

附录

$\nabla_\phi\mathbb{E}_{q_\phi}[f(z)]$

$∇_\phi q_\phi = q_\phi∇_\phi log q_\phi$

\begin{matrix} (4) & \begin{aligned} \nabla_{ϕ} E_{q_{ϕ}} [f (z)] & = \nabla_{ϕ} \int_{z} q_{ϕ} (z | x) f (z) \\ = \int_{z} \nabla_{ϕ} q_{ϕ} (z | x) f (z) \\ = \int_{z} q_{ϕ} (z | x) \nabla_{ϕ} \log q (z | x) f (z) \\ = E_{q_{ϕ}} [f (z) \nabla_{ϕ} \log q (z | x)] \end{aligned} \end{matrix}

$q_\phi(z|x)$ $z^{(l)},l = 1...L$ $\mathcal{L}(\theta, \phi)$ $\phi$ 的梯度进行无偏蒙特卡罗估计。然而，在实际应用中，它的方差过大，无法发挥作用。