UNIT, MUNIT and CariGANs

本文介绍三篇和图像转换有关的工作，分别是UNIT，MUNIT和CariGANs，解决的是不同domain之间的图像的转换。之前看过的图像转换的工作有CycleGAN、StarGAN等，今天这三篇工作提供了一个新的思路，觉得还蛮有趣的，可能可以将这种方法引入到信息隐藏中来。

UNIT

UNIT（UNsupervised Image-to-image Translation）发表于NIPS2017。UNIT提出了一个称为共享的潜在空间（a shared-latent space）的假设:处于不同domain的两张对应图像可以映射到共享的潜在空间中的同一个潜在表示（latent representation）。基于这个假设，提出了基于GAN和VAE的UNIT框架。

定义$X_1$和$X_2$是两个image domain。在有监督的图像到图像转换中，样本$(x_1, x_2)$服从联合分布$P_{X_1, X_2}(x_1, x_2)$；在无监督的图像到图像转换中，样本$(x_1, x_2)$服从边缘分布$P_{X_1}(x_1)$和$P_{X_2}(x_2)$。没有特殊假设的情况下，我们不能从边缘分布中得出联合分布。

下面给出对共享的潜在空间的假设。如下图所示，给定样本对$x_1$和$x_2$，我们可以从一个潜在编码$z$恢复出这两张图像，也可以从这两张图像得到这个共享的潜在编码。假设存在函数$E_1^*$，$E_2^*$，$G_1^*$和$G_2^*$，满足$z=E_1^*(x_1)=E_2^*(x_2)$。反过来，满足$x_1=G_1^*(z)$和$x_2=G_2^*(z)$。这样以来，$F^*_{1\rightarrow2}(x_1)=x_2=G_2^*(E_1^*(x_1))$实现了从$X_1$到$X_2$的映射，$F^*_{2\rightarrow1}(x_2)=x_1=G_1^*(E_2^*(x_2))$实现了从$X_2$到$X_1$的映射。因此，UNIT要实现的就是$F^*_{1\rightarrow2}$和$F^*_{2\rightarrow1}$。更进一步地，两个函数还满足下面的cycle-consistency constraint：$x_1=F^*_{2\rightarrow1}(F^*_{1\rightarrow2}(x_1))$和$x_2=F^*_{1\rightarrow2}(F^*_{2\rightarrow1}(x_2))$。换句话说，UNIT提出的共享的潜在空间假设满足循环一致性假设（the cycle-consistency assumption）。

为了实现这样一个共享的潜在空间假设，我们进一步假设一个一个共享的中间表示$h$。这样生成一对对应图像的过程变成了下面这样一种形式：

$$z\rightarrow h^{\nearrow x_1}_{\searrow x_2}$$

因此有了$G_1^*=G_{L,1}^* \circ G_H^*$和$G_2^*=G_{L,2}^*\circ G_H^*$。其中$G_H^*$是一个高阶的生成函数，用来将$z$映射到$h$；$G_{L,1}^*$和$G_{L,2}^*$是低阶的生成函数，用来分别将$h$映射到$x_1$和$x_2$。在多domain的图像转换中，$z$可以表示一个场景的紧凑的、高阶的表示（如车在前，树在后的场景），$h$可以看做是$z$的一个具体的实现（车和树分别占据了对应的像素），而$G_{L,1}^*$和$G_{L,2}^*$则是每个domain中真实图像的生成函数（“tree in lush green in the sunny domain, but dark green in the rainy domain”）。

上图中的框架是基于VAE和GAN的，由六部分组成：两个domain的图像编码器$E_1$和$E_2$，两个domain的图像生成器$G_1$和$G_2$，两个domain的对抗判别器$D_1$和$D_2$。六部分网络的功能可以从下表中看到。

VAE. $E_1$和$G_1$构成了$X_1$ domain的一个变分自编码器$VAE_{1}$。对于一个输入图像$x_1 \in X_1$，$VAE_1$首先通过编码器$E_1$将$x_1$映射到潜在空间$Z$内的一个编码，之后又由生成器$G_1$将这个编码重构成图像$x_1$。另一个变分自编码器$VAE_2$的作用类似。

Weight-sharing. 基于前面介绍的共享的潜在空间假设，我们通过权重共享将两个VAE联系到一起。具体地，我们让$E_1$和$E_2$的最后几层网络共享参数，这几层网络负责从来自两个domain的输入图像中提取到高阶表示。类似地，我们让$G_1$和$G_2$的前几层网络共享参数，这几层网络负责解码高阶表示以重构输入图像。

要注意到权重共享这一约束并不能保证两个domain中的对应图像有着同样的潜在编码。在无监督训练中，在两个domain中不存在成对的对应图像能够映射到同一个潜在编码，即成对的对应图像提取到的签字编码通常是不同的。然而通过对抗训练，我们可以看到来自两个domain的对应图像可以由$E_1$和$E_2$映射到同一个潜在编码，而这个潜在编码又可以由$G_1$和$G_2$分别映射到两个domain中的对应图像。

GANs. 我们的框架中包含了两个生成对抗网络：$GAN_1=\{D_1, G_1\}$和$GAN_2=\{D_2,G_2\}$。在$GAN_1$中，对于第一个domain中的真实图像，$D_1$应该判定为True；对于由$G_1$生成的图像，$D_2$应该判定为False。$G_1$可以生成两种图像：$\tilde{x}_1^{1\rightarrow1}=G_1(z_1 \sim q_1(z_1|x_1))$和$\tilde{x}_2^{2\rightarrow1}=G_1(z_2 \sim q_2(z_2|x_2))$。因为重构的过程是有监督的，我们只能通过对抗训练的方式来实现图像转换的过程。$GAN_2$有着同样的作用。

Cycle-consistency. 由于共享潜在空间假设意味着循环一致性约束，我们还可以在所提出的框架中强制执行循环一致性约束，以进一步规范不适当的无监督图像到图像转换问题。得到的信息处理流称为循环重构流。

Learning. 我们要同时进行$VAE_1$、$VAE_2$、$GAN_1$和$GAN_2$的训练，以同时实现图像重构流、图像转换流和循环重构流：

$$\min_{E_1, E_2, G_1, G_2} \max_{D_1, D_2} L_{VAE_1}(E_1,G_1)+L_{GAN_1}(E_1, G_1, D_1) + L_{CC_1}(E_1, G_1, E_2, G_2) \\ \qquad \qquad \qquad L_{VAE_2}(E_2, G_2)+L_{GAN_2}(E_2, G_2, D_2)+L_{CC_2}(E_2,G_2, E_1, G_1)$$

VAE的训练旨在最小化一个变分的上限（a variational upper bound），VAE的目标是：

$$L_{VAE_1}(E_1, G_1) = \lambda_1 KL(q_1(z_1|x_1)||p_{\eta}(z)) - \lambda_2E_{z_1\sim q_1(z_1|x_1)}[logp_{G_1}(x_1|z_1)]$$ $$L_{VAE_2}(E_2, G_2) = \lambda_1 KL(q_2(z_2|x_2)||p_{\eta}(z)) - \lambda_2E_{z_2\sim q_2(z_2|x_2)}[logp_{G_2}(x_2|z_2)]$$

GAN的目标函数如下：

$$L_{GAN_1}(E_1, G_1, D_1)=\lambda_0E_{x_1\sim P_{X_1}}[logD_1(x_1)] + \lambda_0E_{z_2\sim q_2(z_2|x_2)}[log(1-D_1(G_1(z_2)))]$$ $$L_{GAN_2}(E_2, G_2, D_2)=\lambda_0E_{x_2\sim P_{X_2}}[logD_2(x_2)] + \lambda_0E_{z_1\sim q_1(z_1|x_1)}[log(1-D_2(G_2(z_1)))]$$

我们使用类似于VAE的目标函数来实现循环一致约束：

$$L_{CC_1}(E_1, G_1, E_2, G_2)=\lambda_3KL(q_1(z_1|x_1)||p_{\eta}(z))+\lambda_3KL(q_2(z_2|x_1^{1\rightarrow2})||p_{\eta}(z)) \\ -\lambda_4E_{z_2\sim q_2(z_2|x_1^{1\rightarrow2})}[logp_{G_1}(x_1|z_2)]$$ $$L_{CC_2}(E_2, G_2, E_1, G_1)=\lambda_3KL(q_2(z_2|x_2)||p_{\eta}(z))+\lambda_3KL(q_1(z_1|x_2^{2\rightarrow1})||p_{\eta}(z)) \\ -\lambda_4E_{z_1\sim q_1(z_1|x_2^{2\rightarrow1})}[logp_{G_2}(x_2|z_1)]$$

后面是参数设置与实验过程，这里不再展开。这个工作的一大亮点是在进行两个domain之间的图像转换时引入了一个潜在空间，两个domain内的对应图像会映射到潜在空间中的同一个编码，并通过VAE和GAN实现了这一过程。

MUNIT

Multimodal UNsupervised Image-to-image Translation是ECCV2018的一篇工作，是UNIT思路的一个延续。之前的UNIT实现的是两个domain之间的一个转换，MUNIT更进一步可以实现多个domain之间的转换，下面就来展开介绍这篇论文的细节。

计算机视觉中的很多问题的目标可以理解成是将一个domain中的图像转换到另一个domain，例如超分辨率（super-resolution），着色（colorization），图像修复（inpainting），属性转换（attribute tansfer）和风格迁移（style transfer），因此跨模态的图像转换已经成为了一个研究热点。在很多场景下，跨模态的图像转换的一个重点是多模态（multimodal）的。例如因为天气、时间、光照等的不同，一个冬天的照片转换成夏天的照片可能会是多个样子。但现有的技术通常只能实现某一个模态的转换，这篇论文提出了一个可以实现多模态的无监督图像转换框架。如Fig. 1(a)所示，该框架设定了多个假设。首先，我们假定UNIT中的潜在空间（a latent space）可以解构成一个内容空间（a content space）和一个风格空间（a style space）。进一步地，我们假定来自不同domain的图像可以共享同一个内容空间但不会共享风格空间。为了将一张图像转换到目标domain，我们将这张图像的内容编码（content code）和属于目标domain的一个随机的风格编码（style code）组合到一起就完成了图像的转换（如Fig. 1(b)所示）。也就是说，在做图像转换时，内容编码保留了图像的主要内容信息，这是要保留下来的；而风格编码在转换到下一个domain时是不需要的，因此就扔掉了它。通过抽样几个不同的风格编码，我们就可以产生多样的、多模态的输入样本。（By sampling different style codes, our model is able to produce diverse and multimodal outputs.）多组实验验证了MUNIT的有效性，并达到了state-of-the-art的效果。

定义$x_1\in X_1$和$x_2\in X_2$是来自两个不同domain的图像。在无监督的图像转换任务中，我们可以获得两张图像分别服从的边缘分布$p(x_1)$和$p(x_2)$，但不能获取到联合分布$p(x_1, x_2)$。我们的目标是通过学习到的图像转换模型$p(x_{1\rightarrow 2|x_1})$和$p(x_{2\rightarrow 1|x_2})$来评估两个条件分布$p(x_2|x_1)$和$p(x_1|x_2)$，其中$x_{1\rightarrow 2}$是一个由$x_1$转换到$X_2$的样本。为了解决这个问题，我们设定了 a partially shared latent space assumption。具体地，我们假定每张图像$x_i\in X_i$是由一个内容潜在编码$c_i\in C_i$和一个风格潜在编码$s_i\in S_i$构成，其中$c_i\in C_i$可以是由两个domain来共享的，而$s_i\in S_i$则是某个domain所特有的。换句话说，服从某个联合分布的一组对应图像$(x_1, x_2)$是由$x_1=G_1^*(c, s_1)$和$x_2=G_2^*(c, s_2)$组成的，其中$c, s_1, s_2$服从某些先验分布，而$G_1^*, G_2^*$是潜在的生成器。更进一步地，我们假定$G_1^*, G_2^*$是目标函数，它们的逆函数为$E_1^*=(G_1^*)^{-1}$和$E_2^*=(G_2^*)^{-1}$。我们的目标就是通过神经网络来学习到这些潜在的生成器和编码器。值得注意的是，尽管编码器和解码器是确定性的，但是由于$s_2$的存在$p(x_2|x_1)$是一个条件分布。 Fig. 2中给出了模型的整体结构和学习过程。一个样本被自动编码器解构成了一个内容编码$c_i$和一个风格编码$s_i$，其中$(c_i, s_i) = (E_i^c (x_i), E_i^s(x_i))=E_i(x_i)$；而图像转换的过程中则用到了“编码器-解码器”对。举例来说，为了将图像$x_1\in X_1$转换到$X_2$，我们首先将图像转换成内容编码$c_1=E_1^c(x_1)$，然后随机选取服从先验分布$q(s_2) \sim N(0, 1)$的风格编码$s_2$。之后使用$G_2$来生成最终的输出图像$x_{1\rightarrow 2}=G_2(c_1, s_2)$。尽管前面这个先验分布不是多模态的，但是因为解码器是非线性的所以输出图像的分布可以是多模态的。

损失函数中包含了一个双向重构损失（a bidirectional reconstruction loss）（保证了编码器和解码器是逆向的）和一个对抗损失（a adversarial loss）（能够让转换得到的图像的分布尽可能地接近目标domain中的图像的分布）。下面具体展开这两部分。

Bidirectional reconstruction loss.

Image reconstruction

$$L_{recon}^{x_1} = E_{x_1\sim p(x_1)}[||G_1(E_1^c(x_1), E_1^s(x_1)) - x_1||_1]$$ $$L_{recon}^{x_2} = E_{x_2\sim p(x_2)}[||G_2(E_2^c(x_2), E_2^s(x_2)) - x_2||_1]$$

Latent reconstruction

$$L_{recon}^{c_1}=E_{c_1\sim p(c_1), s_2\sim q(s_2)}[||E_2^c(G_2(c_1, s_2)) - c_1||_1]$$ $$L_{recon}^{s_2}=E_{c_1\sim p(c_1), s_2\sim q(s_2)}[||E_2^s(G_2(c_1, s_2)) - s_2||_1]$$

Adversarial loss.

$$L_{GAN}^{x_2}=E_{c_1\sim p(c_1), s_2\sim q(s_2)}[log(1-D_2(G_2(c_1, s_2)))]+E_{x_2\sim p(x_2)}[logD_2(x_2)]$$

Total loss.

$$\min_{E_1, E_2, G_1, G_2}\max_{D_1, D_2}L(E_1, E_2, G_1, G_2, D_1, D_2) = L_{GAN}^{x_1} + L_{GAN}^{x_2} \\ + \lambda_x(L_{recon}^{x_1}+L_{recon}^{x_2}) + \lambda_c(L_{recon}^{c_1}+L_{recon}^{c_2}) + \lambda_s(L_{recon}^{s_1} + \lambda_{recon}^{s_2})$$

下图是MUNIT的一个具体实现，代码见 https://github.com/nvlabs/MUNIT。