首先,我是数据分析的初学者。我正在做一个小项目,我必须确定一个家庭是否缺乏燃料。我使用一个指标(如果燃料不好则为0,否则为1)并尝试预测一个家庭是否会使用名义特征(0,1)的向量FP,如区域,房屋类型,表面......和一个连续变量(年龄)。我用SAS(和R)进行了非常经典的二项Logistic回归,绘制了一条ROC曲线及其AUC(相当低,= 0.76),如下所示:
[AUC = 0.76] [1]:https://i.stack.imgur.com/BWjeB.png
出于好奇,我想尝试不同类型的学习者,因为它的简单性我下载了Orange 3.3。我立即尝试运行像SAS(和R)那样的二项逻辑回归并且它起作用......至少对于看起来与SAS和R中的那个完全一样的ROC曲线。但是当我打开“测试和分数”时“泡沫,橙色给我的AUC值为0.518(???)。我把多数分类器比作,因为它的AUC是0.5。在图表上,它们的曲线在逻辑上完全不同,但它们的AUC非常接近。我更改了所有采样选项,尝试使用“数据采样器”气泡,但AUC保持在0.5 / 0.6左右。
为什么像这样的曲线(在橙色中)有这么低的AUC?数据集非常干净,适用于SAS和R.默认情况下,设置橙色LR中的参数。我不明白这个问题,它与分类树实际上是一样的:与曲线的诱惑相比,橙色的AUC值非常低(R我有0.81对0.7与橙色)。
[橙色:AUC = 0.518(已更新所有小部件)] [2]:https://i.stack.imgur.com/HMYIY.png