逻辑回归

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模子(英语:Logit model,也译作“评定模子”、“分类评定模子”)是离散挑选法模子之一,属于众重变量剖析范围,是社会学、生物统计学、临床、数目心思学、计量经济学、墟市营销等统计实证剖析的常用方法。

根源:Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.维基百科
简介

通过线性回归我们可以将具有高度统计相关性的数据拟合出一条直线,并通过这条直线对新的数据举行预测。而逻辑回归模子恰是期望通过x的线性函数对K个种另外后验概率举行修模,同时确保他们的和为1,且都[0,1]中。该模子具有以下实质:

$\log{\frac{Pr(G=1|X=x)}{Pr(G=K|X=x)}} = \beta_{10} + \beta^T_1 x$

$\log{\frac{Pr(G=2|X=x)}{Pr(G=K|X=x)}} = \beta_{20} + \beta^T_2 x$

...

$\log{\frac{Pr(G=K-1|X=x)}{Pr(G=K|X=x)}} = \beta_{(K-1)0} + \beta^T_{K-1} x$

该模子应用了K-1次对数变换,并确保了这些概率的总和为1。尽管该模子运用了第K个种别举措概率中的分母,但实质上分母的挑选可以是恣意的。通过进一步简单的盘算我们可以取得:

$$Pr(G=k|X=x) = \frac{exp(\beta_{k0} + \beta^T_k x)}{1 + \sum^{K-1}_{l=1} exp(\beta_{l0}+\beta^T_l x)}, k=1,...,K-1$$

$$Pr(G=K|X=x) = \frac{1}{1 + \sum^{K-1}_{l=1} exp(\beta_{l0} + \beta^T_l x)}$$

此中,$y = \frac{1}{1+e^{-x}}$被称为sigmoid函数。很分明,逻辑回归模子是将线性函数的结果映照到sigmoid函数上。通过以上公式,我们可以看出前K个种另外概率总和确实为1。当K=2时,该模子只要一个线性函数,生物统计学中二项反响模子运用广泛,比如判别病人的解围或死亡概率,心脏病的有无,以及某种条件的呈现或不呈现等。

拟合逻辑回归模子

逻辑回归模子一般用极大似然估量,即给定X,运用G的条件似然。关于N个观测对象,其对数似然函数为:

$$l(\theta) = \sum^{N}_{i=1} \log p_{g_i} (x_i; \theta)$$

此中,$p_k(x_i ; \theta) = Pr(G = k | X = x_i ; \theta)$。

我们以二分类为例,议论当K=2时的状况:

通过0或1来反响$y_i$值,即当$g_i=1$时,$y_i=0$;当$g_i=2$时,$y_i=1$。设$p_1(x;\theta) = p(x;\theta)$,而$p_2(x;\theta) = 1- p(x;\theta)$,对数似然函数可写作:

此中,$\beta = \{\beta_{10}, \beta_1\}$,而且我们假设$x_i$包罗一个常数1,以便接纳截距。

为使对数似然最大化,令其导数等于零:

$$\frac{\partial{l(\beta)}}{\partial \beta} = \sum^{N}_{i=1} x_i (y_i - p(x_i;\beta)) = 0$$

该方程可通过Newton-Raphson算法以及迭代加权最小二乘法(IRLS)求解,此不做精细阐述。大都状况下,因为对数似然函数为凹函数,该算法确实收敛,但也有可以发生过拟合的题目;少数状况下,对数似然函数递减,通过减半步长将包管收敛性。

(描画根源:Trevor Hastie, Robert Tibshirani and Jerome Friedman (2nd ed., 2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction.)

开展历史

描画

自增加弧线被发明以后,超越175年的时间里,我们曾经完备承认了逻辑回归模子举措一种标明二元数据的有用方法。时至今日,逻辑回归模子曾经是办理分类数据里二分类模子的运用最为广泛的模子之一,曾被广泛用于医疗及体育。精细地说,逻辑回归始于19世纪对生齿增加的描画及自催化反响的研讨,比利时统计学家Verhulst协帮其导师研讨指数增加时代发明并命名了逻辑方程(logistic function),并于1838至1847年间发外了三篇相关论文。1922年,美国生物学家Raymond Pearl基于Verhulst的方程发外了一系列相关论文,用于标明人工增加模子,并提出了另一种logistic function的外达方法。英国科学家Yule(1925)与Wilson(1925)进一步完美了该模子,此中Wilson是第一个将logistic运用于生物测定的生物学家。此后该方程被广泛用于生物医疗范畴,直到1973年,美国加州大众交通方案的参谋MCFadden将众项式logit模子与数学心思学中的离散抉择表面相联络,并于是取得2000年的诺贝尔经济学奖。

该方法虽然根源甚久,但真正途理上第一次呈现logistic regression这个词是1958年David Cox的一篇论文中,该论文主要为理办理怎样求得本文定义及描画中的参数$\beta$。

(描画根源:J.S.Cramer, The origins of Logistic Regression)

主要事情

年份

事情

相关论文/Reference

1838 - 1847

比利时统计学家Verhulst为logistic function命名

Verhulst, Pierre-Francois (1838) Notice sur la loi que la population suit dans son accroissement. Correspondance mathématique et Physique, publiée par A. Quetelet, 10, 113-120

Verhulst, Pierre-Francois (1845) Recherches mathématiques sur la loi d’accroissement de la population. Nouveaux Mémoires de l’acidémie Royale des Sciences, des Lettres et des Beaux-Arts de Belgique, 18, 1-38

Verhulst, Pierre-Francois (1847) Deuxième Mémoire sur la loi d’accroissement de la population. Nouveaux Mémoires de l’acidémie Royale des Sciences, des Lettres et des Beaux-Arts de Belgique, 20, 1-32

1922

Pearl研讨美国生齿增加时提出logistic function另一种外达方法

On the Rate of Growth of the Population of the United States Since 1790 and its Mathematical RepresentationRaymond Pearl, and Lowell J. ReedPNAS 1920;6;275-288 doi:10.1073/pnas.6.6.275

1942

Wilson将logistic function运用于生物测定

Wilson, E.B. and Jane Worcester (1942) The Determination of L.D.50 and Its Sampling Error in Bio-assay. Proceedings of the National Academy of Sciences, 29, 79-85

2001

McFadden于诺贝尔奖颁奖仪式演讲

McFadden, Daniel (2001) Economic Choices. (Nobel Prize acceptance speech.) American Economic Review, 91, 352-370

开展剖析

瓶颈

目前板滞进修范畴针对逻辑回归的优化有许众,但一般都是采用迭代的方法逐渐迫近最小值,一般会变成之条件到的收敛性与过拟合等题目,此中过拟合题目可以通过淘汰模子繁杂度(正则化等)或添加教练集个数来办理。

未来开展偏向

逻辑回归模子举措一种根底数学东西,各个范畴的分类题目仍然有着较大开展偏向。

Contributor: Han Zhang

相关人物
Edmund Beecher Wilson
Edmund Beecher Wilson
丹尼尔·麦克法登
丹尼尔·麦克法登
美国计量经济学家,南加州大学经济学传授,加州大学伯克利分校研讨生部传授。与詹姆斯·赫克曼配合取得2000年诺贝尔经济学奖。
简介
相关人物