解救独身狗:这个对象生成器帮你看看未来对象长啥样

不晓得本人未来的妻子 or 老公长什么样?来,我们先用 AI 预测出一个。

独身众年的你,是否曾幻念另一半的式样?近来,有如许一个开源项目深度进修社区火了起来——通过神经收集生成你另一半的容颜。念晓得本人会和什么样的人一同吗?已有网友实验了生成效果。

项目地址:https://github.com/irfanICMLL/CoupleGenerator

作家本人先容,这是一个自 2017 年便开源了的项目,当时运用的是 TensorFlow,不过近来项目代码改成了 PyTorch。

取得对象只需 8800 步教练

项目运用了一百众位新婚匹俦的结婚照片,图像是通过爬虫从百度上爬取下来的。

这些结婚照都有着同一的模板:喜庆而简单的血色被页粳分明的人脸和五官,对模子教练比较友好和便当。

教练样本之一。爬取方法:https://blog.csdn.net/qq_27879381/article/details/65015280#comments

模子构修和教练上,项目采用了 VGG 举措骨架收集进修图像特征。VGG 是一种常睹的神经收集架构,发布于 2014 年,作家是 Karen Simonyan 和 Andrew Zisserman,该收集外明堆叠众个层是晋升盘算机视觉功用的要害因素。VGGNet 包罗 16 或 19 层,主要由小型的 3×3 卷积操作和 2×2 池化操作构成。

VGG 的优点于,堆叠众个小的卷积核而不运用池化操作可以添加收集的外征深度,同时限制参数的数目。比如,通过堆叠 3 个 3×3 卷积层而不是运用单个的 7×7 层,可以抑制少许限制。

起首,如许做组合了三个非线性函数,而不光是一个,使得计划函数更有判别力和外征才能。第二,参数量淘汰了 81%,而感觉野保持稳定。另外,小卷积核的运用也饰演了正则化器的脚色,并进步了差别卷积核的有用性。

生成结果的进程中,模子运用 pix2pix 的方法。Pix2pix 是一种基于 GAN 架构的立场转换模子,来自论文《Image-to-Image Translation with Conditional Adversarial NetWorks》,作家包罗朱俊彦等,论文 CVPR 2017 发外后,已有众种框架的完成。

Pix2pix 运用成对的图片数据,进修从一个图像到另一个图像的转换方法,并生成可以以假乱真的图像。

运用 pix2pix 完成差别立场和用途图像的互相转换。


Pix2pix 中,生成器采用 encoder-decoder 或 U-Net 的架构。

两种 Pix2pix 的生成器架构。

那么,应当怎样运用这个项目呢?

运用方法

项目中,作家供应了少许实质,包罗: 

  • CKPT 模子文献:

    https://cloudstor.aarnet.edu.au/plus/s/YHDWgez1g3RFc6o

  • VGG 权重文献:

    https://github.com/machrisaa/tensorflow-vgg

  • 教练数据:

    https://cloudstor.aarnet.edu.au/plus/s/VWZJaWfbla3kFch

运用的进程中,你需求下载 VGG 权重文献和教练数据,下载代码到运转状况中并运转 autotest.sh 文献。

效果

教练 8800 步后,模子对给定的图片供应了生成结果,如下所示:

思索到教练数据并不算众,生成图像的质料另有进步的空间。另外我们可以当心到,模子也进修了少许幽默的特征,比如右上角原始图像中有结婚证,则生成的图像中也保管了结婚证这一因素。

项目作家先容

这个项目标作家是一位十分漂亮的密斯姐,目前澳大利亚阿德莱德大学攻读盘算机科学博士学位,师从沈春华传授。

Yifan Liu。

Liu 同窗本科和硕士就读于北京航空航天大学主动化科学与电气工程学院,曾取得 2016 年北京市精良结业生。 2018 年 11 月进入阿德莱德大学攻读博士学位之前,她曾是微软亚研高级研讨员、2018 年 ACM 出色会员王井东传授的拜访学生。

Liu 的主要研讨偏向是神经盘算、方式识别等范畴,包罗图像语义支解等。学术研讨方面,2017 至 2019 年,她举措一作或其他作家的众篇论文被 CVPR、ICCV、PAKDD、IEA/AIE、PACLING 等国际学术集会接纳,有少许为 Oral 论文。

这是她的私人主页:https://irfanicmll.github.io/

实测效果怎样样

为了试一试项目标效果,我们也下载了项目标预教练权重迭代 8800 次)以及 VGG16 的预教练权重。因为数据集十分小,我们先用项目中的数据试一试效果。如下所示我们用项目 datasets 目次下的图像做测试,此中左侧为两组输入图像,右侧为输出图像。从生成结果来看,不管性别,另一半的容颜老是可以被生成出来的,还举行了一点磨皮。

假如我们只给一张人像呢?现看起来,模子的生成规矩是输出输入图像中左侧的人像,假如只输入一张人像的效果可以会变差。为了验证这个念法,我们将上述两张图都截成一个简单人像并输入模子。正如所料,现生成效果不太好。如下所示左侧为两组输入样本,右侧为输出效果。

假如数据不从测试数据汇合取得呢?默认输入规矩为匹俦合照的状况下,我们再次举行了新的实验。通过输入不数据汇合的匹俦人像样本,并反省模子的生成效果。如下图所示,左侧为输入图像,右侧为输出结果,生成的图像较难识别。匹俦图像来自收集搜寻结果。

诚然,应用现稀有据预测未来对象的容颜这种念法是很不错的,可是因为数据量太小,模子的泛化才能还没有抵达应有的请求。总的来说,独身狗还不行光靠这个生成一杖釉己对象的照片。

项目作家也外示,数据量比较少,效果也不太好,可是仍然接待大师运用代码和数据举行进一步的教练,我们也会进一步体恤项目标希望。

初学预教练模子PyTorchGitHub
1
相关数据
微软机构

微软是美国一家跨国盘算机科技公司,以研发、制制、授权和供应广泛的盘算机软件效劳为主。总部位于美国华盛顿州的雷德蒙德,最为出名和抢手的产物为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏营业。微软是美国《财产》杂志2015年评选的天下500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
沈春华人物

沈春华博士现任澳大利亚阿德莱德大学(澳大利亚8所研讨型大学之一)盘算机科学学院终身正传授。曾南京大学(深化部本科及电子系硕士),澳大利亚国立大学(硕士)进修,并阿德莱德大学取得盘算机视觉偏向的博士学位。沈春华传授阿德莱德大学的团队目前主要从事统计板滞进修以及盘算机视觉范畴的研讨义务。

朱俊彦人物

MIT电气工扯蓦盘算机科学系盘算机科学与人工智能实行室博士后。研讨要点:盘算机视觉、盘算机图形学、板滞进修。CycleGAN的作家,曾取得ACM SIGGRAPH 2018最佳博士论文奖。

深度进修技能

深度进修(deep learning)是板滞进修的分支,是一种试图运用包罗繁杂构造或由众重非线性变换构成的众个处理层对数据举行高层笼统的算法。 深度进修是板滞进修中一种基于对数据举行外征进修的算法,至今依鳌有种深度进修框架,如卷积神经收集和深度置信收集和递归神经收集等已被运用盘算机视觉、语音识别、自然言语处理、音频识别与生物新闻学等范畴并获取了极好的效果。

池化技能

池化(Pooling)是卷积神经收集中的一个主要的看法,它实行上是一种方式的降采样。有众种差别方式的非线性池化函数,而此中“最大池化(Max pooling)”是最为常睹的。它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。直觉上,这种机制可以有用的启事于,发明一个特征之后,它的准确位置远缺乏它和其他特征的相对位置的联系主要。池化层会不时地减小数据的空间大小,于是参数的数目和盘算量也会下降,这必定程度上也掌握了过拟合。一般来说,CNN的卷积层之间都会周期性地插入池化层。

权重技能

线性模子中特征的系数,或深度收集中的边。教练线性模子的目标是确定每个特征的抱负权重。假如权重为 0,则相应的特征对模子来说没有任何奉献。

迭代 技能

模子的权重教练时代的一次更新。迭代包罗盘算参数单个批量数据上的梯度耗损。

VGG技能

2014年,牛津大学提出了另一种深度卷积收集VGG-Net,它比较于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以图像上获取更大的感觉野,而VGG采用更小的卷积核与更深的收集晋升参数服从。VGG-Net 的泛化功用较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的题目就于参数数目,VGG-19基本上是参数目最众的卷积收集架构。VGG-Net的参数主要呈现后面两个全连接层,每一层都有4096个神经元,可念而至这之间的参数会有何等庞大。

参数技能

数学和统计学裡,参数(英语:parameter)是运用通用变量来修立函数和变量之间联系(岛镶种联系很难用方程来阐述时)的一个数目。

方式识别技能

方式识别(英语:Pattern recognition),便是通过盘算机用数学技能方法来研讨方式的主动处理和判读。 我们把状况与客体统称为“方式”。 跟着盘算机技能的开展,人类有可以研讨繁杂的新闻处理进程。 新闻处理进程的一个主要方式是生命体对状况及客体的识别。其看法与数据开掘、板滞进修相似。

TensorFlow技能

TensorFlow是一个开源软件库,用于种种感知和言语了解义务的板滞进修。目前被50个团队用于研讨和生产许众Google商业产物,如语音识别、Gmail、Google 相册和搜寻,此中许众产物曾运用过其前任软件DistBelief。

盘算机视觉技能

盘算机视觉(CV)是指板滞感知状况的才能。这一技能种别中的经典义务有图像变成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很主要的研讨范畴。

神经收集技能

(人工)神经收集是一种根源于 20 世纪 50 年代的监视式板滞进修模子,那时分研讨者念象了「感知器(perceptron)」的念法。这一范畴的研讨者一般被称为「勾结主义者(Connectionist)」,因为这种模子模拟了人脑的功用。神经收集模子一般是通过反向传达算法运用梯度下降教练的。目前神经收集有两大主要类型,它们都是前馈神经收集:卷积神经收集(CNN)和轮回神经收集(RNN),此中 RNN 又包罗好坏期记忆(LSTM)、门控轮回单位(GRU)等等。深度进修是一种主要运用于神经收集帮帮其取得更好结果的技能。尽管神经收集主要用于监视进修,但也有少许为无监视进修计划的变体,比如主动编码器和生成对立收集(GAN)。

正则化技能

当模子的繁杂度增大时,教练偏向会渐渐减小并趋势于0;而测试偏向会先减小,抵达最小值后又增大。中挑选的模子繁杂渡过大时,过拟合现象就会爆发。如许,进修时就要避免过拟合。举行最优模子的挑选,即挑选繁杂度恰当的模子,以抵达使测试偏向最小的进修目标。

语义支解技能

语义支解,简单来说便是给定一张图片,对图片中的每一个像素点举行分类。图像语义支解是AI范畴中一个主要的分支,是板滞视觉技能中关于图像了解的主要一环。

堆叠技能

堆叠泛化是一种用于最小化一个或众个泛化器的泛化偏向率的方法。它通过推导泛化器相关于所供应的进修集的偏向来发挥其感化。这个推导的进程包罗:第二层中将第一层的原始泛化器对部分进修集的猜念举行泛化,以及实验对进修集的盈余部分举行猜念,而且输出准确的结果。当与众个泛化器一同运用时,堆叠泛化可以被看作是一个交叉验证的繁杂版本,应用比交叉验证更为繁杂的计谋来组合各个泛化器。当与单个泛化器一同运用时,堆叠泛化是一种用于估量(然后改正)泛化器的过失的方法,该泛化器曾经特定进修集上举行了教练并被讯问了特定题目。

百度机构

百度是举世最大的中文搜寻引擎,是一家互联网归纳新闻效劳公司,更是举世领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏具有“超链剖析”技能专利,也使中国成为美国、俄罗斯、和韩国除外,举世仅有的4个具有搜寻引擎中心技能的国家之一。

https://www.baidu.com/
感觉野技能

一个觉得神经元的感觉野是指这个位置里恰当的刺激可以惹起该神经元反响的区域。感觉野一词重假如指听觉系统、本体觉得系统和视觉系统中神经元的少许实质。

暂无评论
暂无评论~