吕鑫作家

Google Brain最新论文:标签腻滑何时才是有用的?

标签腻滑(Label Smoothing):是深度进修中广泛运用的一种优化方法,差别于古板众分类题目中运用确定的标签举措硬目标,标签腻滑运用硬目标的加权平均和标签上的平均分布举措软目标。

01

论文配景

Christian Szegedy[1]等人2016年第一次提出了标签腻滑方法,该方法运用硬目标的加权平均和标签上的平均分布举措软目标,可以分明的晋升众种神经收集的泛化才能和进修速率。近些年来,标签腻滑被标明可以用于许众的模子和义务中,包罗图像分类板滞翻译语音识别等。

虽然标签腻滑的运用场景很广泛,可是人们对它的了解照旧不敷深化。比如什么状况下可以用标签腻滑而什么状况下不行用?我们本日先容的这篇来自Google Brain论文便对标签腻滑方法举行了深化的研讨,可以比较好的办理这个题目。论文中指出标签腻滑并不是万金油可以很好的运用到种种义务中,比如常识蒸馏中运用标签腻滑便会分明的低沉学生收集的外现。为了气候的展现标签腻滑的原理,论文作家计划了一个巧妙的可视化方法来阐明标签腻滑是怎样改动收集倒数第二层进修到的外示的。另外该论文还对模子校准和常识蒸馏举行了深化剖析,我们将下面一一先容。

02

可视化实行

先容精细的实行之前,我们先对硬目标和软目标做一个方式化的描画。一个分类题目中,假如运用硬目标举措优化目标,我们的交叉熵函数可以写作:

此中假如是准确的类y_k为1否则为0,p_k是神经收集预测是第k类的可以性。假如我们运用软目标,可将上式中的y_k交换为下式:

从标签腻滑的定义我们可以看出,它饱励神经收集挑选准确的类,而且准确类和其余过失的类的差别是同等的。与之差别的是,假如我们运用硬目标,则会容许差别的过失类之间有很大差别。基于此论文作家提出了一个结论:标签腻滑饱励倒数第二层激活函数之后的结果接近准确的类的模板,而且同样的远离过失类的模板。

作家计划了一个可视化的方案来标明这件事故,精细方案为:(1)挑选3个类;(2)采纳通过这三个类的模板的标准正交基的平面;(3)将倒数第二层激活函数之后的结果映照到该平面。作家做了4组实行,第一组实行为CIFAR-10/AlexNet(数据集/模子)上面“飞机”、“汽车”和“鸟”三类的结果,可视化结果如下所示:

从中我们可以看出,加了标签腻滑之后(后两张图),每个类聚的更紧了,而且和其余类的间隔大致同等。第二组实行为CIFAR-100/ResNet-56(数据集/模子)上的实行结果,三个类区分为“河狸”、“海豚”与“水獭”,我们可以取得相似的结果:

第三组实行中,作家测试了ImageNet/Inception-v4(数据集/模子)上的外现,三个类区分为“猫鼬”、“鲤鱼”和“切刀肉”,结果如下:

因为ImageNet有许众细粒度的分类,可以用来测试比较相似的类之间的联系。作家第四组实行中挑选的三个类区分为“玩具高朋犬”、“ 迷你高朋犬”和“鲤鱼”,可以看出前两个类是很相似的,着末一个差别比较大的类图顶用蓝色外示,结果如下:

可以看出运用硬目标的状况下,两个相似的类互比较拟接近。可是标签腻滑强制请求每个示例与所有盈余类的模板之间的间隔相等,这就导致了后两张图中两个类间隔较远,这必定程度上变成了新闻的耗损。

03

模子校准实行

神经收集的的输出中除了分类结果除外,一般还会包罗一个置信度分数。抱负状况下,这个置信度分数应当是和预测准确率同等。比如,假如100个预测结果的置信度是80%,我们期望有80个结果预测准确的,假如是如许,我们就认为这个收集上是校准的。

Chuan Guo[2]等人最早于2017年提出,尽管当代的神经收集功用比过去更好,可是它们的校准效果更差,而且会过于自大。它们提出了Temperature Scaling的方法举行后处理,可以低沉模子的预期校准偏向(ECE)。上面的实行中,我们可以看出加了标签腻滑之后,同一类的外示聚集的更紧了,这必定程度上可以避免神经收集变得过于自大。不会过于自大的神经收集是否可以进步模子的校准呢?作家也做了相应的实行来研讨这个题目。

以图像识别义务为例,我们可以将准确率举措置信度的函数画出来,假如准确率对角线下面,就阐明该收集过于自大。作家CIFAR-100/ResNet-56上做了实行,结果如下:

图中蓝色的线是没有加Temperature Scaling的硬目标结果,它分明的对角线下面,因此可以晓得模子确实有过于自大的现象。有叉号的蓝线是加了Temperature Scaling的硬目标结果,绿线是没有加Temperature Scaling的标签腻滑结果,可以看出标签腻滑可起到和Temperature Scaling相似的模子校准结果。

04

常识蒸馏实行

这一节中,作家发明常识蒸馏模子中,尽管标签腻滑可以进步教师收集的准确率,可是运用标签腻滑教练的教师收集比较于运用硬目标教练的教师收集,其相应的学生收集的外现却要更差。作家以ResNet-56举措教师收集,以AlexNet举措学生收集举行了实行,结果如下:

上面的一张图是教师收集的准确率,下面一张图是学生收集的准确率,红虚线代外的是运用硬目标的教师收集下的学生收集,蓝虚线代外的是运用标签腻滑的教师收集下的学生收集,蓝实线是学生收集的baseline外现。可以看出运用硬目标的教师收集下的学生收集外现会更好少许。

变成这种现象的启事是标签腻滑会必定程度上变成新闻耗损,我们上文中也提到了。为了验证这个猜念,作家做了另一个实行,思索了教练进程中模子的互新闻改造状况,结果如下:

我们可以看到,未运用标签腻滑的教师收集(蓝色线)会保管更众的互新闻,运用标签腻滑的教师收集(血色线)的互新闻则会更少,这标清楚标签腻滑会变成必定新闻耗损的猜念。最终作家也提出了一个结论:教师收集准确率更高并不是蒸馏一个好的学生收集的充沛条件。

论文原文:

https://arxiv.org/pdf/1906.02629.pdf

参考文献:

[1] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2818-2826.

[2] Guo C, Pleiss G, Sun Y, et al. On calibration of modern neural networks[C]//Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017: 1321-1330.

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学盘算机系研发,具有我国完备自助常识产权。系统2006年上线,吸引了举世220个国家/地区800众万独立IP拜访,数据下载量230万次,年度拜访量1000万,成为学术搜寻和社会收集开掘研讨的主要数据和实行平台。

https://www.aminer.cn/
专栏二维码
表面常识蒸馏论文深度进修标签腻滑Google Brain
相关数据
深度进修技能

深度进修(deep learning)是板滞进修的分支,是一种试图运用包罗繁杂构造或由众重非线性变换构成的众个处理层对数据举行高层笼统的算法。 深度进修是板滞进修中一种基于对数据举行外征进修的算法,至今依鳌有种深度进修框架,如卷积神经收集和深度置信收集和递归神经收集等已被运用盘算机视觉、语音识别、自然言语处理、音频识别与生物新闻学等范畴并获取了极好的效果。

激活函数技能

盘算收集中, 一个节点的激活函数定义了该节点给定的输入或输入的汇合下的输出。标准的盘算机芯片电道可以看作是依据输入取得"开"(1)或"关"(0)输出的数字收集激活函数。这与神经收集中的线性感知机的方法相似。 一种函数(比如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(一般为非线性值),并将其转达给下一层。

交叉熵技能

交叉熵(Cross Entropy)是Loss函数的一种(也称为耗损函数或价钱函数),用于描画模子预测值与实值的差异大小

板滞翻译技能

板滞翻译(MT)是应用板滞的力气「主动将一种自然言语(源言语)的文本翻译成另一种言语(目标言语)」。板滞翻译方法一般可分成三大类:基于规矩的板滞翻译(RBMT)、统计板滞翻译(SMT)和神经板滞翻译(NMT)。

神经收集技能

(人工)神经收集是一种根源于 20 世纪 50 年代的监视式板滞进修模子,那时分研讨者念象了「感知器(perceptron)」的念法。这一范畴的研讨者一般被称为「勾结主义者(Connectionist)」,因为这种模子模拟了人脑的功用。神经收集模子一般是通过反向传达算法运用梯度下降教练的。目前神经收集有两大主要类型,它们都是前馈神经收集:卷积神经收集(CNN)和轮回神经收集(RNN),此中 RNN 又包罗好坏期记忆(LSTM)、门控轮回单位(GRU)等等。深度进修是一种主要运用于神经收集帮帮其取得更好结果的技能。尽管神经收集主要用于监视进修,但也有少许为无监视进修计划的变体,比如主动编码器和生成对立收集(GAN)。

准确率技能

分类模子的准确预测所占的比例。众种别分类中,准确率的定义为:准确的预测数/样本总数。 二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映照技能

映照指的是具有某种特别构造的函数,或泛指类函数思念的范围论中的态射。 逻辑和图论中也有少许不太常规的用法。其数学定义为:两个非空汇合A与B间保管着对应联系f,而且关于A中的每一个元素x,B中总有有独一的一个元素y与它对应,就这种对应为从A到B的映照,记作f:A→B。此中,y称为元素x映照f下的象,记作:y=f(x)。x称为y关于映照f的原象*。*汇合A中所有元素的象的汇合称为映照f的值域,记作f(A)。同样的,板滞进修中,映照便是输入与输出之间的对应联系。

分类题目技能

分类题目是数据开掘处理的一个主要构成部分,板滞进修范畴,分类题目一般被认为属于监视式进修(supervised learning),也便是说,分类题目的目标是依据已知样本的某些特征,判别一个新的样本属于哪种已知的样本类。依据种另外数目还可以进一步将分类题目划分为二元分类(binary classification)和众元分类(multiclass classification)。

语音识别技能

主动语音识别是一种将口头语音转换为及时可读文本的技能。主动语音识别也称为语音识别(Speech Recognition)或盘算机语音识别(Computer Speech Recognition)。主动语音识别是一个众学科交叉的范畴,它与声学、语音学、言语学、数字信号处理表面、新闻论、盘算机科学等浩繁学科厉密相连。因为语音信号的众样性和繁杂性,目前的语音识别系统只可必定的限制条件下取得满意的功用,或者说只可运用于某些特定的场合。主动语音识别人工智能范畴占领着极其主要的位置。

常识蒸馏技能

Hinton 的义务引入了常识蒸馏压缩框架,即通过遵照“学生-教师”的范式淘汰深度收集的教练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩办“学生”。为了却束这一点,学生学要教练以预测教师的输出,即实的分类标签。这种方法十分简单,但它同样种种图像分类义务中外现出较好的结果。

图像分类技能

图像分类,依据各自图像新闻中所反应的差别特征,把差别种另外目标区分开来的图像处理方法。它应用盘算机对图像举行定量剖析,把图像或图像中的每个像元或区域划归为若干个种别中的某一种,以替代人的视觉判读。

引荐作品
暂无评论
暂无评论~