逻辑回归替代解释

时间:2018-06-28 14:29:10

标签: r machine-learning statistics regression logistic-regression

我正在尝试分析显示人们是否感染该疾病的数据。也就是说,响应是二进制的。我应用了逻辑回归。假设log.reg(逻辑回归)的结果像;

ID = c(1,2,3,4)
Test_Data = c(0,1,1,0)
Log.Reg_Output = c(0.01,0.4,0.8,0.49)
result = data.frame(ID,Test_Data,Reg_Output)

result

# 1   | 0 |  0.01  
# 2   | 1 |  0.4    
# 3   | 1 |  0.8    
# 4   | 0 |  0.49   

我能说ID = 3的人会以80%的比例感染该病吗?是正确的方法吗?如果没有,为什么?我很困惑,任何帮助都会很棒!

第二个问题是,除了将模型结果四舍五入为0或1外,我如何计算准确率。因为我认为将0.49舍入为0并不那么有意义。 对于我的示例,基于大于或小于0.5,模型输出将变为0、0、1,0,而不是0.01、0.4、0.8、0.49。准确率将达到75%。还有其他计算方法吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

  

我可以说ID = 3的人会以80%的比例感染该疾病吗?

您不清楚“在”的意思; Logistic回归输出的传统/传统解释是模型估计3号人群会以80%的置信度感染疾病。还不清楚标题中的“替代”是什么意思(问题主体中没有详细说明)。

  

除将模型结果四舍五入外,如何计算准确率。

准确度按定义要求将模型结果四舍五入到0/1。但是,至少在原则上,决策阈值不必一定是0.5 ...

  

因为我认为将0.49舍入为0并不那么有意义。

您认为将0.49舍入为1更有意义吗?因为这是二元分类设置中的唯一替代选择(一个人任一都会感染该疾病,不会)。

关于对数丢失度量,在注释中提到:它的作用与准确性完全不同。您可能会发现我的这些相关答案很有帮助:

Loss & accuracy - Are these reasonable learning curves?

How does Keras evaluate the accuracy?(尽管标题错误,但与Keras无关)。

我强烈建议您看一些逻辑回归教程(实际上有数百本);强烈推荐的来源是教科书An Introduction to Statistical Learning (with Applications in R),由作者免费提供...