正则化

当模子的繁杂度增大时,教练偏向会渐渐减小并趋势于0;而测试偏向会先减小,抵达最小值后又增大。中挑选的模子繁杂渡过大时,过拟合现象就会爆发。如许,进修时就要避免过拟合。举行最优模子的挑选,即挑选繁杂度恰当的模子,以抵达使测试偏向最小的进修目标。

简介

当模子的繁杂度增大时,教练偏向会渐渐减小并趋势于0;而测试偏向会先减小,抵达最小值后又增大。中挑选的模子繁杂渡过大时,过拟合现象就会爆发。如许,进修时就要避免过拟合。举行最优模子的挑选,即挑选繁杂度恰当的模子,以抵达使测试偏向最小的进修目标。

模子挑选的典范方法是正则化。正则化是构造损害最小化计谋的完成,是体验损害上加一个正则化项或惩办项。正则化项一般是模子繁杂度的板滞递增函数,模子越繁杂,正则化值就越大。比如,正则化项可以是模子参数向量的范数。

正则化一般具有如下方式:

\[\mathop {\min }\limits_{f \in F} \frac{1}{N}\sum\limits_{i = 1}^N {L({y_i},f({x_i})) + \lambda J(f)} \] (1.19)

此中,第1项是体验损害,第2项是正则化项,$\lambda \ge 0$ 为调解两者之间联系的系数。

正则化项可以取差别的方式。比如,回归题目中,耗损函数是平方耗损,正则化项可以是参数向量的L2范数:

\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \frac{\lambda }{2}{\left\| w \right\|^2}\]

这里,\[\left\| w \right\|\]外示参数向量W的L2范数。

正则化项也可以是参数向量的L1范数:

\[L(w) = \frac{1}{N}\sum\limits_{i = 1}^N {{{(f({x_i};w) - {y_i})}^2}} + \lambda {\left\| w \right\|_1}\]

这里, ${\left\| w \right\|_1}$ 外示参数向量W的L1范数。

第1项的体验损害较小的模子可以较繁杂(有众个非零参数),这时第2项的模子繁杂度会较大。正则化的感化是挑选体验损害与模子繁杂度同时较小的模子。

根源:

李航著 统计进修方法 清华大学出书社

例子:

过拟合的例子

直观来看,假如我们念办理这个例子中的过拟合题目,最好能将\[{x_3}\],\[{x_4}\]的影响消弭,也便是让\[{\theta _{_3}} \approx 0\],\[{\theta _4} \approx 0\].假设我们对 \[{\theta _3}\],\[{\theta _4}\]举行惩办,比如:

\[\mathop {\min }\limits_\theta \frac{1}{{2m}}\sum\limits_{i = 1}^m {{{({h_\theta }({x^{(i)}}) - {y^{(i)}})}^2} + 1000\theta _3^2 + 1000\theta _4^2} \]

而且令其很小,一个简单的方法便是给原有的Cost function加上两个略大惩办项,如许最小化Cost function的时分,\[{\theta _{_3}} \approx 0\],\[{\theta _4} \approx 0\]

开展历史

1943年,吉洪诺夫提出正则化的看法,最初是用于处理不适定反题目。1990年,正则化方法成为样目标论的中心看法,2000年,此看法被广泛运用于板滞进修中。许众板滞进修的算法都应用正则化方法,比如支撑向量机(SVM)

2003年,吮オ拉和孔众尔阐述了基于拉普拉斯图构修图正则项,随后,2005年坎德拉提出了图正则项的非参数构制。

主要事情

年份事情相关论文
1943年第一次提出正则化的看法Tikhonov, A. N. (1943). On the stability of inverse problems. C. R.(Doklady) Acad. Sci. URSS (N.S.), 39:176–179.
1963年提出吉洪诺夫正则化方法,一种不适定题目常常运用的正则化方法A. N. Tikhonov. (1963) Solution of incorrectly formulated problems and the regularization method. Soviet Math. Dokl., 4:1035-1038, 1963.
1990年正则化成为样目标论的主要方法Wahba, G. (1990). Spline models for observational data (Vol. 59). Siam.
2000年正则化方法板滞进修中运用Evgeniou, M. Pontil, and T. Poggio. (2000) Regularization Networks and Support Vector Machines. Advances in Computational Mathematics, 13(1):1–50
2003年基于拉普拉斯图构修正则项图Smola and R. Kondor. (2003) Kernels and regularization on graphs. Conference on Learning Theory,COLT/KW,.
2005年提出了正则项图的非参数构制方法Zhu, X., Kandola, J., Ghahramani, Z., & Lafferty, J. D. (2005). Nonparametric transforms of graph kernels for semi-supervised learning. In Advances in neural information processing systems (pp. 1641-1648).

开展剖析

瓶颈

挑选正则化系数过大时,重假如λ过大时,会变成欠拟合。

未来开展偏向

1. 具有巨量参数模子的正则化题目;

2.未来几年人工神经收集范畴将开辟出更强大的正则化技能,这些技能能使神经收集能更好地泛化,即使数据集十分小

Contributor: Peng Jiang

相关人物
Andrey Nikolayevich Tikhonov
Andrey Nikolayevich Tikhonov
简介
相关人物