CycleGAN

GAN的一个变种

简介

轮回生成对立收集是一种无监视生成对立收集,它的主要念法是教练两对生成器-判别器模子以将图像从一个范畴转换为另一个范畴,这进程中我们请求轮回同等性。即序列地运用生成器后,我们应当取得一个相似于原始 L1 耗损的图像。于是我们需求一个轮回耗损函数(cyclic loss),它能确保生成器不会将一个范畴的图像转换到另一个和原始图像完备不相关的范畴。

该模子包罗两个映照函数 G : X  ---> Y 和 F : Y  ---> X,以及相关的对立式识别器 D_Y 和 D_X。D_Y 饱励 G 将 X 翻译为 Y 立场的图像,反之亦然。为了进一步标准映照,研讨者引入了两个「轮回谐和耗损函数」,确保转换后的立场反转换后可以回到处理之前的形态,如下图所示:

这个方法容许我们进修将马映照到斑马。

如许的转换一般是不稳定的,而且常常创立少许不可功的案例:

[图片及描画根源:从Pix2Code到CycleGAN:2017年深度进修庞大研讨希望全解读|中文字幕AV]

开展历史

2014年,还蒙特利尔读博士的Ian Goodfellow将GAN引入深度进修范畴,很速GAN就AI范畴兴起了浪潮。

2016年,伯克利人工智能研讨室(BAIR)十分引人注目标研讨 Image-to-Image Translation with Conditional Adversarial Networks 中提出了Pix2Pix,研讨职员办理了图像到图像的生成题目。比如需求运用卫星图像创立地图,或运用素描创立传神的目标纹理等。

为了运用 Pix2Pix,他们需求包罗了差别范畴图像对的数据集。搜罗如许的数据集并不艰难,但关于更繁杂一点的转换目标或立场化目标等操作,准绳上是找不到如许的目标对。

于是,Pix2Pix 的作家为理办理如许的题目提出了差别图像范畴之间转换而不需求特定图像对的 CycleGAN 模子,原论文为《Unpaired Image-to-Image Translation》。

2018年,CMU 和 Facebook 的研讨者Yaser Sheikh等人联合举行的一项研讨提出了一种新型无监视视频重定向方法 Recycle-GAN,该方法联合了时间新闻和空间新闻,可完成跨域转换,同时保管目标域的立场。相较于只体恤空间新闻的Cycle-GAN,视频转换中Recycle-GAN的过渡效果更加自然。

主要事情

年份事情相关论文/Reference
2014Ian Goodfellow et al. 提出了生成对立收集(GAN),这是一种无监视进修方法Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).
2016伯克利人工智能研讨室(BAIR)十分引人注目标研讨 Image-to-Image Translation with Conditional Adversarial Networks 中提出了Pix2PixIsola, P.; Zhu, J.-Y.; Zhou, T.; Efros, A. A. (2016). Image-to-Image Translation with Conditional Adversarial Networks. CVPR.
2017Pix2Pix 的作家为理办理如许的题目提出了差别图像范畴之间转换而不需求特定图像对的 CycleGAN 模子Zhu, J.- Y.; Park, T.; Isola, P.; Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv:1703.10593v5.
2018CMU 和 Facebook 的研讨者Yaser Sheikh等人联合举行的一项研讨提出了一种新型无监视视频重定向方法 Recycle-GANBansal, A.; Ma, S.; Ramanan, D.; Sheikh, Y. (2018). Recycle-GAN: Unsupervised Video Retargeting. ECCV.

开展剖析

瓶颈

CycleGAN 有如下几个缺陷:

1. 会改动物体的同时改动配景

2. 短少众样性

a) 生成的图片的指定特征只要一种,比如加上去的眼镜永久是黑框眼镜;

b) Source domain 和 target domain 的维度应当是不相同的,比如乐和不乐,乐自然是合兹屿,可是不乐的程度众种众样,可以有微乐,哈哈大乐等等。又比如无眼镜便是一种,有眼镜可以是各式各样的眼镜;

c) CycleGAN 可以看成有两个映照 f1 和 f2,f1 把 source domain 映照到 target domain, f2 是从 target domain 到 source domain 的映照,f2 是 f1 的逆映照。然而 f1 是一个延续的映照(因为 G 用到的那些操作都是延续映照的复合),以是依据已知的结论 (https://en.wikipedia.org/wiki/Invariance_of_domain),两个 domains 的 dimensions 是相同的,然而这和我们之前的剖析冲突。以是这也是 CycleGAN 不行做特定 attribute transfer 的一个要害题目所。

3.需求几何改造的义务上外现一般

未来开展偏向

图像生成需求可以处理众样、更非常的变换,特别是几何变换;另外,运用监视进修也许可以增进模子细节上的准确性。

Contributor: Yuanyuan Li

相关人物
Alexei (Alyosha) Efros
Alexei (Alyosha) Efros
简介
相关人物