噪音

噪音是一个随机偏向或观测变量的方差。拟合数据的进程中,我们常睹的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据一般包罗噪音,过失,破例或不确定性,或者不完备。 过失和噪音可以会混杂数据开掘进程,从而导致过失方式的衍生。去除噪音是数据开掘(data mining)或常识发明(Knowledge Discovery in Database,KDD)的一个主要方法。

简介

噪音是一个随机偏向或观测变量的方差。拟合数据的进程中,我们常睹的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。

数据一般包罗噪音,过失,破例或不确定性,或者不完备。 过失和噪音可以会混杂数据开掘进程,从而导致过失方式的衍生。去除噪音是数据开掘(data mining)或常识发明(Knowledge Discovery in Database,KDD)的一个主要方法。KDD的方法如下:

[图片根源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.]

上图的第一步数据整理中即涉及到噪声,需求去除噪音和差别等的数据。少许基本的统计描画技能(如箱线图和散点图)和数据可视化方法可以帮帮我们初阶识别可以代外噪声的十分值。

实行义务中,我们往往需求腻滑数据以消弭噪音,此中常用的数据腻滑技能有:

分箱(binning):分箱方法通过盘诘其四周的值来确定该数据点的最终值, 即将待处理的原始数据按照某种规矩划分入差别的“箱子”内,区分察看每一个箱子,并用某种方法区分对箱子内的数据举行处理。 因为装箱方法会咨询值的邻域,于是它们施行的是部分腻滑。

回归(regression):数据腻滑也可以通过回返来完毕, 线性回归涉及找到适合两个或众个属性(或变量)的最祭鬟性组合,以便可以运用一个属性来预测另一个属性。

十分值剖析(outlier analysis):可以通过聚类来检测十分值,直观上,聚类除外的值可以被视为十分值。

值妥当心的是,离群值(outlier)也常常被视为噪音丢弃,但一种状况中是被市△噪音的离群值并不必定其他状况中也是噪音。

[描画根源:Han J.; Kamber M.; Pei J. (2011). Data mining: concepts and techniques. Morgan Kaufman.]


开展历史

描画

用于举行研讨的数据中有噪音好坏常常睹的一件事故,板滞进修模子的修立从一开端便是为了数据中扫除噪音的搅扰而进修准确的方式。也恰是因为云云,相关有噪音的数据进修的研讨十分丰厚,而且涵盖了许众范畴。1978年Craven和Wahba对腻滑样条弧线(smoothing splines)举行了议论,这是一种主要的腻滑离散的、有噪音的数据的手腕,他们提出了一种适用,有用的估算最佳润滑量的方法,用广义交叉验证法估量准确的腻滑程度。同年,Gull和Daniell提出了从不完备且嘈杂的数据中重修图像的方法。该方法运用了最大熵方法,可以运用于确实任何类型的光学图像处理。

Schlimmer和Granger于1986年议论了有噪声的状况下怎样举行渐进式进修(Incremental Learning),他们提出了一个以心思和数学结果为指点的办理方案,并报道了少许关于其功用的实证剖析。2000年Rosenblum等学者生物范畴对有噪声的数据举行了剖析,他们运用相位同步的看法来剖析有噪声的非平稳的双变量数据。并将其运用于众道脑磁图和帕金森患者的肌肉运动记载。 2010年Barbosa和Feng提出了一种应用嘈杂的标签举措教练数据Twitter新闻(推文)上主动检测心情的方法,并通过实证查验认为该办理方案比以前更有用,而且关于偏置的(biased)和噪声数据更加妥当。

主要事情

年份事情相关论文/Reference
1978Craven和Wahba对腻滑样条弧线(smoothing splines)举行了议论,提出了一种适用,有用的估算最佳润滑量的方法Craven P.; Wahba G. (1978).Smoothing noisy data with spline functions.Numerische Mathematik. 31(4): 377–403.
1978Gull和Daniell提出了从不完备且嘈杂的数据中重修图像的方法Gull S. F.; Daniell G. J. (1978). Image reconstruction from incomplete and noisy data.Nature272: 686–690.
1986Schlimmer和Granger议论了有噪声的状况下怎样举行渐进式进修(Incremental Learning)Schlimmer J. C.; Granger R. H.(1986).Incremental Learning from Noisy Data.Machine Learning.1(3):317–354.
2000Rosenblum等学者生物范畴对有噪声的数据举行了剖析,他们运用相位同步的看法来剖析有噪声的非平稳的双变量数据Rosenblum M.; Tass p.; Kurths J.; Volkmann J.; Schnitzler a.; Freund H.(2000). DETECTION OF PHASE LOCKING FROM NOISY DATA: APPLICATION TO MAGNETOENCEPHALOGRAPHY. Chaos in Brain?: pp. 34-51.
2010Barbosa和Feng提出了一种应用嘈杂的标签举措教练数据Twitter新闻(推文)上主动检测心情的方法Barbosa L.; Feng J. (2010). Robust sentiment detection on Twitter from biased and noisy data. Proceedings of the 23rd International Conference on Computational Linguistics: pp 36-44.

开展剖析

瓶颈

噪音是客观保管的,它并不像少许研讨手腕/模子那样保管开展瓶颈。但噪音的保管会影响少许算法的外现和表面的适用性,如PAC进修框架假设数据是无噪音的,这导致其实行义务中的指点感化十分有限;又如晋升方法(boosting)对噪音数据敏锐,进修器进修效果不稳定。

未来开展偏向

算法的妥当性不停都是板滞进修范畴的一个体恤点,如早期Holmstrom等学者通过注入噪音进步ANN的泛化才能。目前跟着人工智能研讨向通用人工智能偏向打破,进修算法的泛化才能会变得更加主要。

By Yuanyuan Li

相关人物
格雷丝·沃巴
格雷丝·沃巴
生于1934年,是威斯康星大学麦迪逊分校的统计学传授。她是腻滑嘈杂数据方法的前驱。她以开展广义交叉验证和“Wahba题目”而出名,她曾经开辟了少许方法,并运用于生齿研讨、板滞进修、DNA微阵列、损害修模、医学成像和气候预测。 她曾康奈尔大学(1956年取得学士学位)、马里兰大学帕克分校(1962年取得硕士学位)和斯坦福大学(1966年取得博士学位)承受蕉蔟,并工业界义务了几年,然后于1966年取得博士学位,并于1967年假寓麦迪逊。她于2000年中选美国国家科学院院士,并于2007年取得芝加哥大学授予的声誉科学博士学位。
简介
相关人物