半监视进修

半监视进修属于无监视进修(没有任何标记的教练数据)和监视进修(完备标记的教练数据)之间。许众板滞进修研讨职员发明,将未标记数据与少量标记数据联合运用可以显着进步进修准确性。关于进修题目的标记数据的获取一般需求熟练的人类署理(比如转录音频片断)或物理实行(比如,确定卵白质的3D构造或确定特定位置处是否保管油)。于是与标签处理相关的资本可以使得完备标注的教练集不可行,而获取未标记的数据相对低廉。这种状况下,半监视进修可以具有很大的适用代价。半监视进修对板滞进修也是表面上的兴味,也是人类进修的模范。

根源:Wikipedia
简介

半监视进修(Semi-Supervised Learning,SSL) 运用标记和未标记的数据来施行有监视的进修或无监视的进修义务。

【根源: Paper, URL: http://pages.cs.wisc.edu/~jerryzhu/ssl/pub/SSL_EoML.pdf】

半监视进修可进一步划分为纯(pure)半监视进修直推进修(transductive learning)。前者假定教练数据中的未标记样本并非待预测的数据,然后者则假定进修进程中所思索的未标记样本恰是待预测数据。纯半监视进修是基于“绽放天下”假设,期望学得模子能适用于教练进程中未察看到的数据,而直推进修是基于“封合天下”假设,仅试图对进修进程中察看到的未标记数据举行预测。下图直观的外现出主动进修纯半监视进修直推进修的区别:

[周志华,《板滞进修》清华大学出书社; 第1版 (2016年1月1日) ]

人类对半监视进修题目的反响得出了关于未标记数据影响程度的差别结论。更自然的进修题目也可以被视为半监视进修的实例。许众人的看法进修包罗少量的直接材料指点和大宗无标记的体验。

人类婴儿对无标记自然种另外构造很敏锐,比如狗和猫的图像,或男性和女性的脸《Younger B. A.; Fearing D. D. (1999). "Parsing Items into Separate Categories: Developmental Change in Infant Categorization"》。[15]近来的研讨外明,婴儿和儿童不光思索了可用的未标记示例,而且还思索了发生标记示例的抽样进程。

描画根源:wiki, URL:https://en.wikipedia.org/wiki/Semi-supervised_learning 

开展历史

Merz等人1992年提出了SSL这个术语,并首次将SSL用于分类题目。叫∨Shahshahani和Landgrebe睁开了对SSL的研讨。协同教练方法由Blum和Mitchell提出,基于差别的视图教练出两个差别的进修机,进步了教练样本的置信度。Vapnik和Sterin提出了TSVM(Transductive Support Vector Machine),用于估量类标签的线性预测函数。为了求解TSVM,Joachims提出了SVM (Support Vector Machine)方法,Bie和Cristianini将TSVM松开为半定例划题目从而举行求解。

许众研讨学者广泛研讨将希冀最大算法(Expectation Maximum,EM)与高斯混淆模子(Gaussian Mixture Model,GMM)相联合的生成式SSL方法。Blum等人提出了最小割法(Mincut),首次将图论运用于办理SSL题目。Zhu等人提出的谐和函数法(Harmonic Function)将预测函数从离散方式扩展到延续方式。由Belkin等人提出的流形正则化法(Manifold Regularization)将流形进修的思念用于SSL场景。Klein等人提出首个用于聚类的半监视间隔器量进修方法,进修一种间隔器量。

半监视进修成为一个热门范畴之后,呈现了许众应用无类标签的样例进步进修算法预测精度和加疾速率的进修方法,于是呈现了大宗改良的半监视进修方法。Nigam等人将EM和朴实贝叶斯联合,通过引入加权系数动态调解无类标签的样例的影响进步了分类准确度,修立每类中具有众个混淆部分的模子,使贝叶斯偏向减小。Zhou和Goldman提出了协同教练改良算法,不需求充沛冗余的视图,而应用两个差别类型的分类器来完毕进修。Shang等人提出一种新的半监视进修方法,能同时办理有类标签样本希罕和具有附加无类标签样例成对束缚的题目。

根源:半监视集成进修综述,盘算机科学期刊,第44卷第 6A期,2017年6月

半监视进修的研讨的历史可以追溯到20世纪70年代,这暂时代,呈现了自教练(Self-Training)、直推进修(Transductive Learning)、生成式模子(Generative Model)等进修方法。

到了20世纪90年代,对半监视进修的研讨变得更加狂热,新的表面的呈现,以及自然言语的处理、文天职类和盘算机视觉中的新运用的开展,增进了半监视进修的开展,呈现了协同教练(Co-Training)和转导支撑向量机(Transductive Support Vector Machine,TSVM)等械澜法。

根源:wiki, URL: https://en.wikipedia.org/wiki/Semi-supervised_learning#History 

主要事情

年份事情相关论文
1998Blum, A., & Mitchell, T.首次提出协同教练Blum, A., & Mitchell, T. (1998, July). Combining labeled and unlabeled data with co-training. In Proceedings of the eleventh annual conference on Computational learning theory (pp. 92-100). ACM.
2005Zhu, X.对半监视进修举行的回忆Zhu, X. (2005). Semi-supervised learning literature survey.
2014Zhou, X., & Belkin, M对半监视进修方法举行讲解Zhou, X., & Belkin, M. (2014). Semi-supervised learning. In Academic Press Library in Signal Processing (Vol. 1, pp. 1239-1269). Elsevier.
2015Rasmus, A., Berglund, M.,提出降生半监视 ladderNetRasmus, A., Berglund, M., Honkala, M., Valpola, H., & Raiko, T. (2015). Semi-supervised learning with ladder networks. In Advances in Neural Information Processing Systems (pp. 3546-3554).

开展剖析

瓶颈

目前对SSL的表面剖析还不敷深化。

目今阵势部SSL应用的数据是无噪声搅扰的数据,而且依赖的基本假设没有充沛思索噪声搅扰下无类标签数据分布的不确定性以及繁杂性,可是实行运用中一般难以取得无噪声数据。

一般教练数据是随机采纳的,即有类标签的样例和无类标签的样例独立同分布,可是实行运用中,无类标签的样例可以来自与有类标签的样例分布差别或未知的场景,而且有可以带有噪声。

从种种SSL算法的完成进程可以看出,SSL题目大众为非凸、非腻滑题目,或整数计划和组合优化题目,保管众个部分最优解,比如求解SSL发生式方法目标函数的EM算法只可取得部分极大值目前主要采用种种松开方法把目标函数近似转化为凸或延续最优化题目,不易取得全部最优解,算法的时空繁杂性很高。

未来开展偏向

颠末大宗研讨职员的恒久起劲,SSL范畴的研讨已取得了必定开展,提出了不少SSL方法,同时已将SSL运用于许众实行范畴。但目前这个范畴的研讨仍保管许众有待进一步办理的题目,未来的研讨偏向包罗以下少许实质。

表面剖析

目前对SSL的表面剖析还不敷深化。类标签过失或成对束缚不准确时进修方法的功用怎样改动,挑选差别的正束缚和失期束的比例会对降维的功用变成什么影响,除了一般采用的分类精度和运算速率除外,另有没有其他更适宜的评判目标,对进修功用起到改良感化的是准确的最优化求解算法,照旧运用的进修模子中的数据外示和进修方法,最优解对进修结果的影响有众大,未来还需求进一步议论这些题目。

抗搅扰性与牢靠性

目今阵势部SSL应用的数据是无噪声搅扰的数据,而且依赖的基本假设没有充沛思索噪声搅扰下无类标签数据分布的不确定性以及繁杂性,可是实行运用中一般难以取得无噪声数据。未来需求研讨怎样依据实行题目挑选适宜的SSL方法,更好地应用无类标签的样例帮帮进步进修的准确性和疾速性,并减小大宗无类标签数据惹起的盘算繁杂性,可以思索引入鲁棒统计表面办理该抗噪声搅扰题目。另外,大宗实行研讨标明当模子假设正时,无类标签的样例可以帮帮改良进修功用;而过失的模子假设上,SSL不光不会对进修功用起到改良感化,以致会发生过失,恶化进修功用。怎样验证做出的模子假设是否准确,挑选哪种SSL方法可以更适宜地帮帮进步进修功用,除了己有的假设除外,还可以无类标签的样例上举行哪些假设,新的假设是否会发生新的法,SSL能否有用用于大型的无类标签的数据,这些题目另有待未来研讨.另外,导致SSL功用下降的启事除了模子假设不契合实行状况外,另有进修进程中标记无类标签的样例累积的噪声,是否另有其他启事使无类标签的样例变成进修才能的下降,也是未来需求进一步研讨的题目。

教练样例与参数的采纳

一般教练数据是随机采纳的,即有类标签的样例和无类标签的样例独立同分布,可是实行运用中,无类标签的样例可以来自与有类标签的样例分布差别或未知的场景,而且有可以带有噪声。未来的研讨需求找到一个好的方法将SSL和主动进修相联合,采纳有利于进修模子的教练样例,并确定SSL,可以有用举行所需求的有类标签的样本数目标下界。另外,许众研讨职员将SL和UL二算法扩展用于SSL,可是许众这些算法是依据先验新闻取得教练数据集的参数,并应用这些参数改良算法SSL中的功用.目前都是人工采纳一种SSL方法,并设定进修数,包管SSL的功用优于SL和UL,可是当采纳的SSL方法与进修义务不立室或者参数的设定过错适时,会成SSL的功用比SL或UL更差.怎样主动依据进修义务采纳适宜的SSL方法并准确取得参数是未来SSL需求深化研讨的实质,可以思索用全贝叶斯进修表面办理。

优化求解

从种种SSL算法的完成进程可以看出,SSL题目大众为非凸、非腻滑题目,或整数计划和组合优化题目,保管众个部分最优解,比如求解SSL发生式方法目标函数的EM算法只可取得部分极大值目前主要采用种种松开方法把目标函数近似转化为凸或延续最优化题目,不易取得全部最优解,算法的时空繁杂性很高,题目的求解依赖于最优化表面的打破,未来需求研讨新的算法求解全部最优解。

研讨拓展

SSL从发生以后,主要用于实行室中处理人工合成数据,未来的研讨一方而需求议论SSL可以分明进步哪些进修义务的功用,拓展SSL实行范畴的实行运用,另一方而需求订定出一个同一的令人信服的SSL方法的运用规程。另外,目前有许众的半监视分类方法,而对半监视回归题目的研讨比较有限。未来有待继续研讨半监视分类和半监视回归之间的联系,并提出其他半监视回归方法。

Contributor: Ruiying Cai

相关人物
朱晓进
朱晓进
美国威斯康星大学麦迪逊分校盘算机系 Sheldon & Marianne Lubar 传授。朱晓进1993年结业于上海交通大学并取得盘算机学士学位,1996年取得美国卡内基梅隆大学盘算机系的硕士学位,2005年,CMU取得盘算机科学博士学位。其导师是盘算机科学中人工智能、板滞进修等范畴的天下级巨匠John Lafferty。朱晓进CMU的博士论文为Semi-Supervised Learning with Graphs。研讨要点是板滞进修。2010年取得美国国家科学基金会CAREER奖,2013年取得ICML经典论文奖。
简介
相关人物