过拟合

过拟合是指为了取得同等假设而使假设变得过分厉厉。避免过拟合是分类器计划中的一个中心义务。一般采用增大数据量和测试样本集的方法对分类器功用举行评判。

根源:Wikipedia
简介

过拟合是指为了取得同等假设而使假设变得过分厉厉。避免过拟合是分类器计划中的一个中心义务。一般采用增大数据量和测试样本集的方法对分类器功用举行评判。

图中,是分类红蓝亮点。绿色的分界线就代外过拟合的弧线,而比较好的分类结果应当是黑色的线。

常睹启事

(1)修式样本采纳有误,如样本数目太少,选样方法过失,样本标签过失等,导致采纳的样本数据缺乏以代外预订的分类规矩;

(2)样本噪音搅扰过大,使得板滞将部分噪音认为是特征从而烦扰了预设的分类规矩;

(3)假设的模子无法合理保管,或者说是假设修立的条件实行并不可立;

(4)参数太众,模子繁杂渡过高;

(5)关于计划树模子,假如我们关于其孕育没有合理的限制,其自孕育有可以使节点只包罗纯粹的事情数据(event)或非事情数据(no event),使其虽然可以完美立室(拟合)教练数据,可是无法顺应其他数据集。

(6)关于神经收集模子:a)对样本数据可以保管分类计划面不独一,跟着进修的举行,BP算法使权值可以收敛过于繁杂的计划面;b)权值进修迭代次数过众(Overtraining),拟合了教练数据中的噪声和教练样例中没有代外性的特征。

办理方法

如model comparison, cross-validation, regularization, early stopping, pruning, Bayesian priors, or dropout。

(1)神经收集模子中,可运用权值衰减的方法,即每次迭代进程中以某个小因子低沉每个权值。

(2)采纳适宜的中止教练标准,使对板滞的教练适宜的程度;

(3)保管验证数据集,对教练效果举行验证;

(4)获取分外数据举行交叉验证;

(5)正则化,即举行目标函数或价钱函数优化时,目标函数或价钱函数后面加上一个正则项,一般有L1正则与L2正则等。

URL:https://zh.wikipedia.org/wiki/NP_(%E8%A4%87%E9%9B%9C%E5%BA%A6)】

开展历史

神经收集中的过拟合题目:

深层神经收集包罗众个非线性躲藏层,这使得它们十分有外现力,可以输入和输出之间进修十分繁杂的联系。然而,因为教练数据有限,许众繁杂的联系将会是采样噪声的结果,以是它们会保管于教练汇合,而不是实的测试数据中,即使它来自相同的分布,这也导致了过拟合题目。当然研讨职员开辟了许众方法来淘汰它。如如different variants of cross-validation (Haykin, 1999), noise injection (Holmstrom and Koistinen, 1992), error regularization, weight decay (Poggio and Girosi, 1990; Haykin, 1999) and the optimized approximation algorithm (Liu et al., 2008).。

Early stopping

起首,Nowlan和Hinton1992年接纳的方法是:验证集的功用开端变得更糟时中止教练,引入各品种型的重量惩办,如L1和L2规矩化和soft weight sharing。different variants of cross-validation方法有许众种,有些是特别体恤的数据十分稀缺,即众种的crossvalidation或剖析(Haykin,1999)。这种方法2008年Liu的论文里被定义为提前中止的方法。

Noise injection

比较早的技能另有注入噪声,少许论文中(Holmstrom和Koistinen, 1992年)议论了ANN优化进程中对数据的差别的噪声注入技能。(Grandvalet et al .,1997;Skurichina et al,2000;Seghouane et al .,2004)。实行运用中,Holmstrom和Koistinen(1992)提出的输入数据中到场高斯噪声的方法变体成为最受接待的方法。噪声注入进步了ANN泛化才能(Sietsma和Dow, 1991;a, 1996),特别是关于小数据样本的分类题目(Huaet al., 2006)。从表面上研讨了噪声注入和其他进步ANNs泛化特征的方法(包罗偏向正则化)的相似性,并通过Zur等人(2009)的实证研讨取得了标明。

DROPOUT

Dropout是避免了过分拟合的,并供应了一种有用地将许众差别的神经收集架构联合一同的方法。“Dropout”一词指的是神经收集中把单位(躲藏的和可睹的)去掉 dropping out units。通过删除一个单位,我们的意义是暂时将它从收集中移除,以及它的所有传入和传出连接收集。通过精简收集的构造来淘汰过拟合。

Dropout的动机来自于性别进化中的感化表面(Livnat等),它可以被标明为通过添加噪声来调治神经收集的一种方法。2014年,Srivastava, N., Hinton, G.对Dropout方法举行了精细的先容。

Optimization approximation algorithm

优化的近似算法(OAA) (Liu et al., 2008)是一种近来提出的方法,看法上与之前描画的方法有很大的差别。OAA的开辟是为了阻遏ANN教练,而不运用验证集或任何对测量数据的搅扰。中止判据是基于每个迭代中由模子偏向所确定的易盘算系数的值和由样本大小N决议的signal-to-noise-ratio-figure(SNRF)阈值之间的联系。该方法引入了延续函数的一维迫近,并推行到更适用的众维状况。

当然对数据的划分,或者添加数据的方法也可以有用地淘汰过拟合,如Index Data Division;Random Data Division ;Block Data Division ;Interleaved Data Division;

主要事情

年份事情相关论文
1992Holmstrom, L., & Koistinen数据中注入噪声淘汰过拟合Holmstrom, L., & Koistinen, P. (1992). Using additive noise in back-propagation training. IEEE Transactions on Neural Networks, 3(1), 24-38.
1992Nowlan, S. J., & Hinton用L1,L2正则化来减小过拟合Nowlan, S. J., & Hinton, G. E. (1992). Simplifying neural networks by soft weight-sharing. Neural computation, 4(4), 473-493.
1999Haykin提出交叉验证的方法淘汰过拟合crossvalidationHaykin, S. (1999). Adaptive filters. Signal Processing Magazine, 6, 1.
2008Liu, Y.提出近似优化算法来构造ANN的教练Liu, Y., Starzyk, J. A., & Zhu, Z. (2008). Optimized approximation algorithm in neural networks without overfitting. IEEE transactions on neural networks, 19(6), 983-995.
2014Srivastava, N., Hinton, G.精细先容Dropout方法Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A simple way to prevent neural networks from overfitting. The Journal of Machine Learning Research, 15(1), 1929-1958.

开展剖析

瓶颈

数据量过少时,呈现的过拟合题目,怎样合理的添加数据。参数太众,模子繁杂渡过高;样本噪音搅扰过大,使得板滞将部分噪音认为是特征从而烦扰了预设的分类规矩;等等都会变成过拟合题目。

未来开展偏向

技能的根底是(1)显式地对过于繁杂的模子举行惩办,或者(2)通过对一组不必于教练的数据举行评估来测试模子的泛化才能,这是假定模子将会碰到的典范的不可睹数据。

以后也联合众种模子来淘汰过拟合,如Bagging(分段函数的看法); Boosting; Dropout等。用差别的模子拟合差别部分的教练集。

Contributor: Ruiying Cai

相关人物
简介
相关人物