Variational Autoencoder (VA)

变分自动编码器(Variational Autoencoder, VA)是一种非线性潜变量模型,具有基于变分原理的高效梯度训练程序。在潜变量模型中,我们假定观察到的 x 是由一些潜变量(未观察到的)z 生成的;这些潜变量捕捉到了观察数据中的一些 "有趣 "结构,而这些结构并不能从观察数据本身立即看出。例如,一种称为独立成分分析的潜变量模型可用于将人们同时说话的录音中的单独语音信号分离出来。更正式地说,我们可以把潜变量模型看作是一个概率分布 p(x|z),它描述了生成过程(即 x 是如何从 z 生成的)以及关于潜变量 z 的先验值 p(z)。这相当于以下简单的图形模型

(1)zx

潜变量模型中的学习

我们在这种模型中的目的是学习生成过程,即 p(x|z)(我们假设 p(z)是已知的)。一个好的p(x|z) 会给观测到的x 赋以高概率;因此,我们可以通过最大化观测数据的概率(即p(x))来学习一个好的p(x|z)。假设 p(x|z) 的参数为 θ,我们需要解决以下优化问题

(2)maxθpθ(x)

其中,pθ(x)=zp(z)pθ(x|z)。这是一个很难的优化问题,因为它涉及 z的积分,但却有可能没有解析解。

潜变量模型的后验推断

目前,我们暂时抛开这个关于学习的问题,重点讨论另一个问题:潜变量模型的后验推断 p(z|x)。 我们很快就会看到,这个问题与学习问题密切相关,而且事实上还引出了解决这个问题的方法。给定 p(z)p(x|z), 我们希望推断出后验分布 p(z|x)。 这通常相当困难,因为它涉及到对 z 的积分, p(z|x)=p(x,z)zp(x,z)。对于大多数潜变量模型来说,这个积分无法求出, 因此需要对 p(z|x) 进行近似。例如,我们可以使用马尔科夫链蒙特卡洛技术对后验进行采样。不过,在这里我们将研究另一种基于变异推理的技术。变异推理将后验推理问题转化为优化问题, 变异推理将后验推理问题转化为优化问题,即找到一个尽可能接近 p(z|x) 的近似概率分布 q(z|x) 。这可以形式化为解决以下优化问题

(3)minϕKL(qϕ(z|x)||p(z|x))

其中,ϕ 表示近似值。 qKL(q||p) 表示 q and p 之间的Kullback-Leibler发散,其值为 KL(q||p)=xq(x)logq(x)p(x) 。然而,这个优化问题并不比我们原来的问题简单,因为它仍然要求我们估计 p(z|x) 。让我们看看能否解决这个问题。根据 KL 的定义,我们可以写出

(1)KL(qϕ(z|x)||p(z|x))=zqϕ(z|x)logqϕ(z|x)p(z|x)=zqϕ(z|x)logqϕ(z|x)p(x)p(x,z)=zqϕ(z|x)logqϕ(z|x)p(x,z)+zqϕ(z|x)logp(x)=L(ϕ)+logp(x)

其中我们定义了

(4)L(ϕ)=zqϕ(z|x)logp(x,z)qϕ(z|x)

由于 p(x)qϕ(z|x) 无关,最小化 KL(qϕ(z|x)||p(z|x)) 等于最大化 L(ϕ)。请注意,优化 L(ϕ) 要容易得多,因为它只涉及 p(x,z)=p(z)p(x|z) ,不涉及任何难解的积分。因此,我们可以通过求解下面的优化问题,对潜变量模型的后验进行变分推断

(5)maxϕ  L(ϕ)

回到学习问题

上面的推导也提出了学习生成模型 p(x|z) 的方法。我们可以看到,L(ϕ) 实际上是观测数据 p(x) 的对数概率的下限

(2)KL(qϕ(z|x)||p(z|x))=L(ϕ)+logp(x)L(ϕ)=logp(x)KL(qϕ(z|x)||p(z|x))L(ϕ)logp(x)

其中我们使用了 KL 从不为负这一事实。现在,假设我们不做后验推断,而是固定 q,并学习生成模型 pθ(x|z)。那么 L 现在是 θ 的函数,L(θ)=zq(z|x)logpθ(x|z)p(z)q(z|x) 。由于 Llogp(x) 的下限,我们可以最大化 L 作为最大化 logp(x) 的近似。事实上,如果 q(z|x)=p(z|x),则 KL 项为零,L(θ)=logp(x),即最大化 L 等于最大化 p(x) 。这表明我们可以同时改变 ϕθ 来最大化 L , 以达到同时学习 qϕ(z|x)pθ(x|z) 的目的:

(6)maxθ,ϕ  L(θ,ϕ)

在这里

L(θ,ϕ)=zqϕ(z|x)logp(z)pθ(x|z)qϕ(z|x)=Eq[logp(z)pθ(x|z)qϕ(z|x)]

关于期望最大化( expectation maximization, EM)的简单介绍

EM 可以看作是解决上述公式(6)中最大化问题的一种特殊策略。在 EM 中,E 步包括根据当前的 θ(即后验 pθ(x) )计算最优 qϕ(z|x) 。在 M 步中,我们将最优 qϕ(z|x) 插入 L,并相对于 θ 使其最大化。换句话说,EM 可以看作是一个坐标上升过程,它相对于 ϕθ 交替使 L 最大化。

解决公式 (6) 中的最大化问题

我们可以使用多种技术来解决上述最大化问题。在此,我们将重点讨论随机梯度上升,因为变分自动编码器使用了这种技术。在基于梯度的方法中,我们评估目标相对于模型参数的梯度,并沿着梯度方向迈出一小步。因此,我们需要估计 L(θ,ϕ) 的梯度。假设我们有一组样本 z(l),l=1...L,我们可以对 L 进行如下蒙特卡罗估计

(8)L(θ,ϕ)1Ll=1Llogpθ(x,z(l))logqϕ(z(l)|x)where z(l)qϕ(z|x)

并且 pθ(x,z)=p(z)pθ(x|z) 。与 θ 有关的导数很容易估算,因为 θ 只出现在总和(sum)的内部。

(9)θL(θ,ϕ)1Ll=1Lθlogpθ(x,z(l))where z(l)qϕ(z|x)

相对而言,ϕ 的导数更难估算。我们不能简单地将梯度算子推入总和,因为用于估计 L 的样本来自 qϕ(z|x),而 qϕ(z|x) 取决于 ϕ 。只要注意到 ϕEqϕ[f(z)]Eqϕ[ϕf(z)] 就可以意识到这点, 其中 f(z)=logpθ(x,z(l))logqϕ(z(l)|x) 。实际上,这种期望梯度的标准估计值方差过大,无法发挥作用(详见附录)。VA的一个主要贡献是对 ϕL(θ,ϕ) 进行了更有效的估计,这依赖于所谓的重参化技巧。

重参化技巧

我们想估计 Eqϕ(z|x)[f(z)] 形式的期望梯度。问题在于,相对于 ϕ 的梯度难以估计,因为 ϕ 出现在期望的分布中。如果我们能以某种方式重写这个期望,使 ϕ 只出现在期望内部,我们就能简单地将梯度算子推入期望中。假设我们可以从噪声分布 p(ϵ) 中采样,并通过可微变换 gϕ(ϵ,x) 得到 qϕ(z|x)的样本。

(10)z=gϕ(ϵ,x) with ϵp(ϵ)

那么,我们可以将期望值Eqϕ(z|x)[f(z)]改写如下

(11)Eqϕ(z|x)[f(z)]=Ep(ϵ)[f(gϕ(ϵ,x))]

假设我们有一组来自 p(ϵ) 的样本 ϵ(l),l=1...L,我们可以对 L(θ,ϕ) 进行蒙特卡罗估计

(12)L(θ,ϕ)1Ll=1Llogpθ(x,z(l))logqϕ(z(l)|x)where z(l)=gϕ(ϵ(l),x) and ϵ(l)p(ϵ)

现在,ϕ 只出现在总和的内部,而L 相对于 ϕ 的导数可以用估计 θ 的相同方法来估计。这实质上就是重参化的技巧,它大大降低了 ϕL(θ,ϕ) 估计值的方差,使得训练大型潜变量模型变得可行。我们可以为多种近似后验qϕ(z|x)选择找到一个合适的噪声分布 p(ϵ) 和一个可变的变换 gϕ(有关的方法,请参见原始论文[1])。我们将在下文讨论VA时看到多元高斯分布的例子。

变分自动编码器(Variational Autoencoder, VA)

以上关于潜变量模型的讨论是一般性的,上述变异方法可以应用于任何潜变量模型。我们可以把VA看作是一种潜变量模型,它使用神经网络(特别是多层感知器)对近似后验 qϕ(z|x)和生成模型 pθ(x,z) 进行建模。更具体地说,我们假设近似后验是一个多变量高斯分布,具有对角协方差矩阵。这个高斯分布的参数由一个以 x 为输入的多层感知器(Multilayer Perceptron, MLP)计算得出。我们用两个非线性函数 μϕσϕ 来表示这个 MLP,它们分别从 x 映射到均值向量和标准偏差向量。

(13)qϕ(z|x)=N(z;μϕ(x),σϕ(x)I)

对于生成模型 pθ(x,z),我们假设 p(z) 固定为单位多元高斯,即 p(z)=N(0,I)pθ(x|z) 的形式取决于建模数据的性质。例如,对于实数 x,我们可以使用多元高斯分布;对于二元 x,我们可以使用伯努利分布。这里,我们假设 x 是实数,pθ(x|z)是高斯分布。同样,我们假设 pθ(x|z) 的参数由 MLP 计算得出。用两个非线性函数 μθσθ表示这个 MLP,它们分别从 z 映射到均值向量和标准偏差向量。

(14)pθ(x|z)=N(x;μθ(z),σθ(z)I)

看看这个模型的网络结构,我们就知道为什么它被称为自动编码器了。

(15)xqϕ(z|x)zpθ(x|z)x

编码器 qϕ 将输入 x 以概率方式映射到代码 z ,解码器 pθ 又将代码 z 以概率方式映射回输入空间。

为了学习 θϕ ,VA采用了上述变异方法。我们从 qϕ(z|x) 采样了 z(l),l=1...L ,并利用这些样本获得变分下限 L(θ,ϕ) 的蒙特卡罗估计值,如公式 (8) 所示。然后,我们求出该下限相对于参数的导数,并在随机梯度上升过程中使用这些导数来学习 θϕ。如上所述,为了减小梯度估计值的方差,我们采用了重参化的技巧。我们希望使用噪声分布 p(ϵ) 和可微变换 gϕ 对多元高斯分布 qϕ(z|x) 进行重参化。我们假设从多元单位高斯中采样,即 p(ϵ)N(ϵ;0,I)。那么,如果我们让 z=gϕ(ϵ,x)=μϕ(x)+ϵσϕ(x), z 将具有所需的分布 qϕ(z|x)N(z;μϕ(x),σϕ(x))(表示元素相乘)。因此,我们可以利用 qϕ 的这种重参化将变分下界重写如下

(16)L(θ,ϕ)1Ll=1Llogpθ(x,z(l))logqϕ(z(l)|x)where z(l)=μϕ(x)+ϵσϕ(x) and ϵ(l)N(ϵ;0,I)

我们还可以做一个简化。将 pθ(xz) 明确写成 p(z)pθ(x|z),我们可以看到

(3)L(θ,ϕ)=Eq[logp(z)pθ(x|z)qϕ(z|x)](17)=Eq[logp(z)qϕ(z|x)]+Eq[pθ(x|z)](18)=KL(qϕ(z|x)||p(z))+Eq[pθ(x|z)](19)(20)

由于 p(z)qϕ(z|x) 都是高斯分布,因此 KL 项有一个封闭的表达式。将其插入,我们就得到了下面的变分下界表达式。

(21)L(θ,ϕ)12d=1D(1+log(σϕ,d2(x))μϕ,d2(x)σϕ,d2(x))+1Ll=1Llogpθ(x|z(l))where z(l)=μϕ(x)+ϵσϕ(x) and ϵ(l)N(ϵ;0,I)

这里我们假设 zD 维,并用 μϕ,dσϕ,d 表示 z 的均值向量和标准偏差向量的第 d 维。假设我们有一个包含 N 个数据点的数据集,并随机抽取了 M 个数据点。对每一个x(i), 小批量 {xi},i=1...M 的变分下界估计值是 L(θ,ϕ) 的简单平均值。

(22)L(θ,ϕ;{xi}i=1M)NMi=1ML(θ,ϕ;x(i))

其中 L(θ,ϕ;x(i)) 在公式 21 中给出。为了学习 θϕ,我们可以求出上述表达式的导数,并将其用于随机梯度上升过程。

附录

估计ϕEqϕ[f(z)]

估计这种期望值梯度的一个常用方法是利用特征 ϕqϕ=qϕϕlogqϕ

(4)ϕEqϕ[f(z)]=ϕzqϕ(z|x)f(z)=zϕqϕ(z|x)f(z)=zqϕ(z|x)ϕlogq(z|x)f(z)=Eqϕ[f(z)ϕlogq(z|x)]

这种估计器在文献中有多种名称,如 REINFORCE algorithm、score function estimator 或者likelihood ratio trick。给定来自 qϕ(z|x) 的样本 z(l),l=1...L 时,我们可以使用该估计器对 L(θ,ϕ) 相对于 ϕ 的梯度进行无偏蒙特卡罗估计。然而,在实际应用中,它的方差过大,无法发挥作用。