图像生成

图像生成(合成)是从现稀有据集生成新图像的义务。

根源:paperswithcode
简介

描画一张图像对人类来说相当容易,我们很小的时分就能做到。板滞进修中,这项义务是一个判别分类/回归题目,即从输入图像预测特征标签。随兹宇近 ML/AI 技能(特别是深度进修模子)的进步,它们开端这些义务中脱颖而出,有时会抵达以致超越人类的外现,如视觉目标识别(比如,从 AlexNet 到 ResNet ImageNet 分类义务上的外现)和目标检测/支解(如从 RCNN 到 YOLO COCO 数据集上的外现)等场景中展现的相同。

然而,另一方面,基于描画生成传神图像却要艰难得众,需求众年的平面计划教练。板滞进修中,这是一项生成义务,比判别义务难众了,因为生成模子必需基于更小的种子输入产出更丰厚的新闻(如具有某些细节和改造的完备图像)。

虽然创立此类运用顺序艰难重重,但生成模子(加少许掌握)许众方面十分有用:

  • 实质创立:念象一下,广告公司可以主动生成具有吸引力的产物图像,而且该图像不光与广告实质相立室,而且与镶嵌这些图片的网页立场也相交融;时尚计划师可以通过让算法生成 20 种与「息闲、帆布、夏日、激情」字样相关的样鞋来吸取灵感;新游戏容许玩家基于简单描画生成传神头像。
  • 实质感知智能编辑:照相师可以通过几次单击改动证件照的面部外情、皱纹数目和发型;好莱坞制片厂的艺术家可以将镜头里众云的夜晚转换成阳光绚烂的清晨,而且阳光从屏幕的左侧映照进来。
  • 数据增强:主动驾驶汽车公司可以通过合成特定类型事故现场的传神视频来增强教练数据集;信用卡公司可以合成数据汇合代外性缺乏的特定类型讹诈数据,以改良讹诈检测系统

[描画根源:定制人脸图像没那么难!运用TL-GAN模子轻松变脸|中文字幕AV]

开展历史

2014年,还蒙特利尔读博士的Ian Goodfellow将GAN引入深度进修范畴,到目前为止,GAN模子曾经是图像生成模子的首选之一了。

2016年,Scott Reed, Honglak Lee等人开辟了一种新的GAN架构,以有用地桥接文本和图像修模之间的方法,将视觉看法葱≈符转换为像素。 他们而且展现了他们的模子从精细的文字描画中生成合理的鸟和花图像的才能。Han Zhang,Dimitris Metaxas等人扩展了这个方法,提出了堆叠生成对立收集(StackGAN)来生成基于文本描画的256x256照片实图像。他们通过草图细化进程将艰难剖析为更易于办理的子题目。 Stage-I GAN依据给定的文本描画绘制对象的原始样式和颜色,发生Stage-I低区分率图像。 Stage-II GAN将Stage-I结果和文本描画举措输入,并生成具有照片般传神细节的高区分率图像。它可以改正第一阶段结果中的缺陷,并通精细化进程添加引人注目标细节。为了改良合成图像的众样性并稳定条件GAN的教练,他们引入了一种新的调治增强技能,该技能可以增进潜调治声称图像的腻滑性。广泛的实行和与基准数据集上的当时技能的比较外明,他们所提出的方法生成以文本描画为条件的照片般传神的图像方面完成了显着的改良。

2018年,Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena提出了自我当心生成对立收集(SAGAN),它容许当心力驱动的长途依赖修模用于图像生成义务。古板的卷积GAN生成高区分率细节,仅举措低区分率特征图中空间部分点的函数。SAGAN中,可以运用来自所有因素位置的提示生成精细新闻。另外,识别器可以反省图像的远端部分中的高度精细的特征是否互雷同等。SAGAN 曾经将 ImageNet 生成上的 IS 抵达了 52 分。

DeepMind 带来的 BigGAN 创制性的将正交正则化的思念引入 GAN,通过对输入先验分布 z 的适时截断大大晋升了 GAN 的生成功用,BigGAN SAGAN 的根底上一举将 IS 进步了 100 分,抵达了 166 分。

主要事情

年份事情相关论文/Reference
2014Ian Goodfellow et al. 提出了生成对立收集(GAN),这是一种无监视进修方法Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. In Advances in neural information processing systems (pp. 2672-2680).
2016Scott Reed, Honglak Lee等人开辟了一种新的GAN架构,以有用地桥接文本和图像修模之间的方法Reed, S.; Akata, Z.; Yan, X.; Logeswaran, L.; Schiele, B. and Lee, H. (2016). Generative adversarial text-to-image synthesis. ICML.
2017Han Zhang,Dimitris Metaxas等人扩展了这个方法,提出了堆叠生成对立收集(StackGAN)来生成基于文本描画的256x256照片实图像Zhang, H.; Xu, T.; Li, H.; Zhang, S.; Huang, X.; Wang, X. and Metaxas, D. (2017). Stackgan: Text to photo-realistic image synthesis with stacked generative adversarial networks. ICCV.



2018Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena提出了自我当心生成对立收集(SAGAN)Zhang, H.; Goodfellow, I.; Metaxas, D.; Odena, A. (2018). Self-Attention Generative Adversarial Networks. arXiv:1805.08318.
2018DeepMind 带来的 BigGAN 创制性的将正交正则化的思念引入 GANBrock, A.; Donahue, J.; Simonyan, K. (2018). Large Scale GAN Training for High Fidelity Natural Image Synthesis. arXiv:1809.11096.

开展剖析

瓶颈

目前BigGAN等模子等模子取得了比比皆是的传神效果,但其所需求教练的参数也是巨量的,这对硬件的请求很高。

未来开展偏向

丰厚的配景和纹理图像的生成是种种生成模子寻求的终极目标,像BigGAN等模子正执政着这个偏向行进,他们的特性重假如:

  • 通过大范围 GAN 的运用,BigGAN 完成了生成上的庞大打破;
  • 采用先验分布 z 的“截断本领”,容许对样本众样性和保真度举行精细掌握;
  • 大范围 GAN 的完成上不时抑制模子教练题目,采用本领减小教练的不稳定。

Contributor: Yuanyuan Li

相关人物
Honglak Lee
Honglak Lee
目次
简介
相关人物