我正在尝试分析显示人们是否感染该疾病的数据。也就是说,响应是二进制的。我应用了逻辑回归。假设log.reg
(逻辑回归)的结果像;
ID = c(1,2,3,4)
Test_Data = c(0,1,1,0)
Log.Reg_Output = c(0.01,0.4,0.8,0.49)
result = data.frame(ID,Test_Data,Reg_Output)
result
# 1 | 0 | 0.01
# 2 | 1 | 0.4
# 3 | 1 | 0.8
# 4 | 0 | 0.49
我能说ID = 3的人会以80%的比例感染该病吗?是正确的方法吗?如果没有,为什么?我很困惑,任何帮助都会很棒!
第二个问题是,除了将模型结果四舍五入为0或1外,我如何计算准确率。因为我认为将0.49舍入为0并不那么有意义。 对于我的示例,基于大于或小于0.5,模型输出将变为0、0、1,0,而不是0.01、0.4、0.8、0.49。准确率将达到75%。还有其他计算方法吗?
谢谢!
答案 0 :(得分:1)
我可以说ID = 3的人会以80%的比例感染该疾病吗?
您不清楚“在”的意思; Logistic回归输出的传统/传统解释是模型估计3号人群会以80%的置信度感染疾病。还不清楚标题中的“替代”是什么意思(问题主体中没有详细说明)。
除将模型结果四舍五入外,如何计算准确率。
准确度按定义要求将模型结果四舍五入到0/1。但是,至少在原则上,决策阈值不必一定是0.5 ...
因为我认为将0.49舍入为0并不那么有意义。
您认为将0.49舍入为1更有意义吗?因为这是二元分类设置中的唯一替代选择(一个人任一都会感染该疾病,或不会)。
关于对数丢失度量,在注释中提到:它的作用与准确性完全不同。您可能会发现我的这些相关答案很有帮助:
Loss & accuracy - Are these reasonable learning curves?
How does Keras evaluate the accuracy?(尽管标题错误,但与Keras无关)。
我强烈建议您看一些逻辑回归教程(实际上有数百本);强烈推荐的来源是教科书An Introduction to Statistical Learning (with Applications in R),由作者免费提供...