线性回归和逻辑回归有什么区别?

时间:2012-08-27 17:49:06

标签: machine-learning data-mining linear-regression

当我们必须预测categorical(或离散)结果的值时,我们使用logistic regression。我相信我们使用linear regression来预测输入值的结果值。

然后,这两种方法有什么区别?

15 个答案:

答案 0 :(得分:200)

  • 线性回归输出为概率

    使用线性回归输出作为概率很诱人,但这是一个错误,因为输出可能是负数,大于1而概率则不然。实际上可能是回归 产生的概率可能小于0,甚至大于0 1,引入逻辑回归。

    来源:http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    enter image description here

  • <强>结果

    在线性回归中,结果(因变量)是连续的。 它可以具有无数个可能值中的任何一个。

    在逻辑回归中,结果(因变量)只有有限数量的可能值。

  • 因变量

    当响应变量本质上是分类时,使用逻辑回归。例如,是/否,真/假,红/绿/蓝, 第1 /第2 /第3 /第4等。

    当您的响应变量是连续的时,使用线性回归。例如,体重,身高,小时数等

  • <强>公式

    线性回归给出一个Y = mX + C形式的方程, 是指程度为1的方程式。

    然而,逻辑回归给出了一个形式的等式 Y = e X + e -X

  • 系数解释

    在线性回归中,自变量的系数解释非常简单(即保持所有其他变量不变,在该变量中单位增加,预期因变量增加/减少xxx)。

    然而,在逻辑回归中,取决于家庭(二项式,泊松, 等)和你使用的链接(log,logit,inverse-log等),解释是不同的。

  • 错误最小化技术

    线性回归使用普通最小二乘法方法来最小化 逻辑回归时,错误并达到最佳匹配 使用最大似然方法来得出解决方案。

    线性回归通常通过最小化模型对数据的最小平方误差来解决,因此大的误差会被二次惩罚。

    逻辑回归恰恰相反。使用逻辑损失函数会导致大的错误被判定为渐近常数。

    考虑对分类{0,1}结果进行线性回归,以了解为什么这是一个问题。如果你的模型预测结果为38,那么当真相为1时,你什么都没有失去。线性回归会尝试减少38,后勤不会(同样多) 2

答案 1 :(得分:193)

在线性回归中,结果(因变量)是连续的。它可以具有无数个可能值中的任何一个。在逻辑回归中,结果(因变量)只有有限数量的可能值。

例如,如果X包含房屋的平方英尺面积,并且Y包含这些房屋的相应销售价格,您可以使用线性回归来预测销售价格与房屋大小的函数关系。虽然可能的售价可能实际上不是任何,但是有很多可能的值会选择线性回归模型。

相反,如果您想根据大小预测房屋的售价是否会超过20万美元,那么您将使用逻辑回归。可能的输出是,房子的售价超过20万美元,或者不,房子不会。

答案 2 :(得分:9)

只是添加以前的答案。

线性回归

旨在解决预测/估计给定元素X(例如f(x))的输出值的问题。预测的结果是连续的函数,其中值可以是正的或负的。在这种情况下,您通常会有一个包含大量示例的输入数据集以及每个示例的输出值。目标是能够模型拟合到此数据集,以便您能够预测新的不同/从未见过的元素的输出。以下是将线拟合到点集的经典示例,但通常线性回归可用于拟合更复杂的模型(使用更高的多项式度):

enter image description here 解决问题

Linea回归可以通过两种不同的方式解决:

  1. 正规方程(解决问题的直接方法)
  2. 梯度下降(迭代方法)
  3. 逻辑回归

    旨在解决分类问题,在给定元素的情况下,您必须在N个类别中对其进行分类。典型的例子是例如给出邮件以将其归类为垃圾邮件或者不给予垃圾邮件,或者给予车辆查找它所属的类别(汽车,卡车,货车等)。这基本上是输出是一组有限的离散值。

    解决问题

    Logistic回归问题只能通过使用Gradient下降来解决。该公式一般与线性回归非常相似,唯一的区别在于不同假设函数的使用。在线性回归中,假设具有以下形式:

    h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 .. 
    

    其中θ是我们试图拟合的模型,[1,x_1,x_2,..]是输入向量。在逻辑回归中,假设函数是不同的:

    g(x) = 1 / (1 + e^-x)
    

    enter image description here

    这个函数有一个很好的属性,基本上它将任何值映射到范围[0,1],这适合于在分类期间处理可预测性。例如,在二元分类的情况下,g(X)可以被解释为属于正类的概率。在这种情况下,通常你有不同的类,用决策边界分开,基本上是曲线,它决定了不同类之间的分离。以下是分为两类的数据集示例。

    enter image description here

答案 3 :(得分:7)

基本区别:

线性回归基本上是回归模型,这意味着它将给出函数的非谨慎/连续输出。所以这种方法给出了价值。例如:给定x是什么是f(x)

例如,考虑到培训后的不同因素和培训后的房产价格,我们可以提供所需的因素来确定房产价格。

Logistic回归基本上是一种二元分类算法,这意味着这里将为该函数提供谨慎的值输出。例如:对于给定的x,如果f(x)>阈值将其分类为1,则将其归类为0。

例如,给定一组脑肿瘤大小作为训练数据,我们可以使用该大小作为输入来确定其是否为苯或恶性肿瘤。因此,这里的输出是谨慎的0或1。

*这里的功能基本上就是假设函数

答案 4 :(得分:6)

它们在解决方案方面非常相似,但正如其他人所说,其中一个(Logistic回归)用于预测类别&#34; fit&#34; (Y / N或1/0),另一个(线性回归)用于预测值。

因此,如果您想预测您是否患有癌症Y / N(或概率) - 请使用物流。如果你想知道你要活多少年 - 使用线性回归!

答案 5 :(得分:4)

简单地说,线性回归是一种回归算法,它可以输出一个可能的连续和无限值;逻辑回归被认为是二元分类器算法,它输出概率&#39;属于标签(0或1)的输入。

答案 6 :(得分:1)

简而言之: 线性回归提供连续输出。即一系列值之间的任何值。 Logistic回归给出离散输出。即是/否,0/1种输出。

答案 7 :(得分:1)

不能同意上述评论。 除此之外,还有一些差异,比如

在线性回归中,假设残差是正态分布的。 在Logistic回归中,残差需要是独立的,但不是正态分布的。

线性回归假设解释变量值的不断变化会导致响应变量的不断变化。 如果响应变量的值表示概率(在Logistic回归中)

,则该假设不成立

GLM(广义线性模型)不假设因变量和自变量之间存在线性关系。但是,它假设logit模型中链接函数和自变量之间存在线性关系。

答案 8 :(得分:1)

| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

答案 9 :(得分:0)

简单地说,如果在线性回归模型中有更多的测试用例到达,而对于y = 1和y = 0的预测,它们离阈值(例如= 0.5)很远。这样一来假说就会改变并变得更糟。因此,线性回归模型不用于分类问题。

另一个问题是,如果分类为y = 0且y = 1,则h(x)可以> 1或<0。因此我们使用Logistic回归得出0 <= h(x)<= 1。

答案 10 :(得分:0)

逻辑回归用于预测分类输出,例如是/否,低/中/高等。您基本上有两种类型的逻辑回归二进制逻辑回归(是/否,批准/不批准)或多类逻辑回归(低/中/高,数字从0-9等)

另一方面,线性回归是您的因变量(y)是连续的。 y = mx + c是一个简单的线性回归方程(m =斜率,c是y轴截距)。多线性回归具有1个以上的自变量(x1,x2,x3 ...等)

答案 11 :(得分:0)

回归表示连续变量,线性表示y和x之间存在线性关系。 例如,您正在尝试根据多年的经验来预测薪水。因此,这里的薪水是自变量(y),经验的年限是因变量(x)。 y = b0 + b1 * x1 Linear regression 我们试图找到常数b0和b1的最佳值,这将为您的观测数据提供最佳拟合线。 它是线的方程,给出从x = 0到非常大的连续值。 这条线称为线性回归模型。

逻辑回归是分类技术的一种。术语回归会误导Dnt。在这里,我们预测y = 0还是1。

在这里,我们首先需要根据以下形式从x中找到p(y = 1)(y = 1的概率)。

prob

概率p在以下形式上与y相关

s

Ex =我们可以将罹患癌症的机会大于50%的肿瘤分类为1,将罹患癌症的可能性小于50%的肿瘤分类为0。 5

此处红点将被预测为0,而绿点将被预测为1。

答案 12 :(得分:0)

在线性回归中,结果是连续的,而在逻辑回归中,结果只有有限数量的可能值(离散)。

示例: 在一种情况下,给定的x值是图的大小(以平方英尺为单位),然后预测y,即图的比率处于线性回归之下。

相反,如果您想根据面积预测该地块的售价是否超过300000卢比,则可以使用逻辑回归。可能的输出是“是,该地块的售价将超过300000卢比”,或者是“否”。

答案 13 :(得分:0)

如果是线性回归,则结果是连续的,而如果是Logistic回归,则结果是离散的(不是连续的)

要执行线性回归,我们需要因变量和自变量之间具有线性关系。但是要执行Logistic回归,我们不需要因变量和自变量之间具有线性关系。

线性回归是关于在数据中拟合直线,而逻辑回归是关于在数据中拟合曲线。

线性回归是机器学习的回归算法,而逻辑回归是机器学习的分类算法。

线性回归假设因变量的高斯分布(或正态分布)。 Logistic回归假设因变量的二项式分布。

答案 14 :(得分:0)

线性回归和逻辑回归之间的基本区别是: 线性回归用于预测连续值或数字值,但是当我们正在寻找预测分类逻辑回归的值时。

逻辑回归用于二进制分类。