线性回归

实行天下中,保管着大宗如许的状况:两个变量比如X和Y有少许依赖联系。由X可以部分地决议Y的值,但这种决议往往不很确实。常常用来阐明这种依赖联系的最简单、直观的例子是体重与身高,用Y外示他的体重。家喻户晓,一般说来,当X大时,Y也偏向于大,但由X不行厉厉地决议Y。又如,都会生存用电量Y与气温X有很大的联系。炎气候温很高或冬气候温很低时,因为室内空调、冰箱等家用电器的运用,可以用电就高,相反,年事季节气温不高也不低,用电量就可以少。但我们不行由气温X准确地决议用电量Y。相似的例子还许众,变量之间的这种联系称为“相关联系”,回归模子便是研讨相关联系的一个有力东西。

简介

实行天下中,保管着大宗如许的状况:两个变量比如X和Y有少许依赖联系。由X可以部分地决议Y的值,但这种决议往往不很确实。常常用来阐明这种依赖联系的最简单、直观的例子是体重与身高,用Y外示他的体重。家喻户晓,一般说来,当X大时,Y也偏向于大,但由X不行厉厉地决议Y。又如,都会生存用电量Y与气温X有很大的联系。炎气候温很高或冬气候温很低时,因为室内空调、冰箱等家用电器的运用,可以用电就高,相反,年事季节气温不高也不低,用电量就可以少。但我们不行由气温X准确地决议用电量Y。相似的例子还许众,变量之间的这种联系称为“相关联系”,回归模子便是研讨相关联系的一个有力东西。

以上诸例中,Y一般称为因变量或呼应变量,X称为自变量或预告变量。我们可以念象,Y的值由两部分构成:一部分是由X可以决议的部分,它是X的函数,记为f(X).而另一部分则由其它浩繁未加思索的因素(包罗随机因素)所发生的影响,它被看作随机偏向,记为e,于是我们取得如下模子:

Y= f(X)+e (1.1.1)

这里e举措随机偏向,我们有来由请求它的均值E(e)=0,此中E(·)外示随机变量的均值。

特别,当f(X)是线性函数${\rm{f(x) = }}{\beta _0} + {\beta _1}X$ 时,我们取得

$f(x) = {\beta _0} + {\beta _1}x + e$ (1.1.2)

这个模子中,若疏忽掉e,它便是一个一般的直线方程。于是,我们称(1.1.2)为线性回归模子或线性回归方程。

根源:

王松桂等编 线性统计模子 线性回归与方差剖析 上等蕉蔟出书社

例子:

从某大学中随机采纳8名女大学生,其身高和体重数据如外1-1所示。

编号

1

2

3

4

5

6

7

8

身高/cm

165

165

157

170

175

165

155

170

体重/kg

48

57

50

54

64

61

43

59

求依据一名女大学生的身高预告她的体重的回归方程,并预告一名身高为172cm的女大学生的体重。

解:1.采纳身高为自变量X,体重为因变量Y,作散点图:

2.由散点图晓得身高和体重有比较好的线性相关联系,于是可以用线性回归方程描写它们之间的联系。

3.回归方程:Y=0.849X-85.172

4.以是,身高172cm的女大学生体重Y=0.849 x 172 – 85.172 = 60.856(KG)

开展历史

描画

“回归”是由英国出名生物学家兼统计学家高尔顿(Francis Galton,1822~1911.生物学家达尔文的外弟)研讨人类遗传题目时提出来的。为了研讨父代与子代身高的联系,高尔顿搜罗了1078对父亲及其儿子的身高数据。他发明这些数据的散点图大致呈直线形态,也便是说,总的趋势是父亲的身高添加时,儿子的身高也偏向于添加。可是,高尔顿对试验数据举行了深化的剖析,发清楚一个很幽默的现象—回归效应。因为当父亲高于平均身高时,他们的儿子身高比他更高的概率要小于比他更矮的概率;父亲矮于平均身高时,他们的儿子身高比他更矮的概率要小于比他更高的概率。它反又厮一个法则,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势。关于这个一般结论的标明是:大自然具有一种束缚力,使人类身高的分布相对稳定而不发生南北极剖析,这便是所谓的回归效应。

线性回归的最早期方式是最小二乘法,该方法1805年由Legendre提出。Legendre和Gauss都将此方法运用到天文观测当中,1821年,Gauss进一步阐述了最小二乘法表面,包罗直到目前都耳熟能详的Gauss-Markov定理,该定理是线性模子范畴的根底定理。

回归的当代原理:它要比其原始原理广泛的众。精细地说,回归剖析的实质包罗:• 确定呼应变量与预告变量间的回归模子,即变量间相关联系的数学外达式(一般称为体验公式);• 依据样本估量并查验回归模子及未知参数;• 从浩繁的预告变量中,判别哪些变量对呼应变量的影响是分明的,哪些是不分明的;• 依据预告变量的已知值或给定值来估量或预测呼应变量的平均值并给出预测精度或依据呼应变量的给定值来估量预告变量的值,即所谓的预告与掌握题目。

主要事情

年份

事情

相关论文

1886年

高尔顿提出了“回归”的看法

Francis Galton.(1886) "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263

1887年

由作家从头构造翻译高斯相关最小二乘法的著作,使其便当查阅

Börsch, A., & Simon, P. (1887). Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. Berlin: P. Stankiewicz, 1-27.

1926年

作家用英语对高斯线性模子举行了高质料的总结提炼

WHITTAKER, E. T. & ROBINSON, G. (1924, 1926). The Calculus of Observations. London: Blackie.

1957年

作家用当代术语对高斯线性模子举行了完美阐述

WAERDEN, B. L. VAN DER (1957). Mathematische Statistik. Berlin: Springer.

开展剖析

瓶颈

1)回归模子中包罗的变量众,所需的数目大,可是实行中,少许变量的数据往往是难以查找到的,短少数据的状况下要修立准确牢靠的回归预测模子好坏常艰难的。另外,回归模子中的少许自变量为非滞后变量,于是,运用回归模子举行预测之前,起首要对这些变量做出估量,假如估量得不准确,就会对通通预测模子发生倒霉的影响,使预测偏向很大。

2)关于非线性数据强行运用线性回归模子会导致一个十分不准确的结果

3)线性回归虽然是一个简单稳定的算法,可是它请求数据听从少许条件。以是,直接调用线性回归之前,我们有须要先对数据举行审视看看符不契合条件,假如不契合要接纳少许相应手腕对数据举行处理,着末再调用线性回归

Contributor: Jiang Peng

相关人物
弗朗西斯·高尔顿
弗朗西斯·高尔顿
英格兰维众利亚时代的博学家、人类学家、优生学家、热带探险家、地舆学家、发明家、气候学家、统计学家、心思学家和遗传学家,查尔斯·达尔文的外弟。
卡尔·弗里德里希·高斯
卡尔·弗里德里希·高斯
简介
相关人物