我已经从数据集中生成了模型,并尝试根据cohen_kappa得分和预测准确性找到最佳算法。我针对各种算法运行它,因为我将获得的数据类型是未知的,因此通过比较它们的kappa和准确度来找到最佳算法。 我的数据经过10次交叉验证。
我在随机森林,决策树,SGDC分类器,感知器,被动攻击性,逻辑回归,梯度提升,朴素贝叶斯,K邻居之间进行了比较。
在我的例子中,我将Random Forest作为分类的最佳算法,Kappa = 1且准确度= 0.94
我的分类是2类分类,其条件如ResponseTime> 200。
现在,当我尝试运行预测时,对于某些因变量值,我得到了正确的预测,但对于某些人来说,这是完全错误的。
我尝试了所有不同的算法,但预测结果非常不一致。
由于
答案 0 :(得分:0)
您必须仔细查看错误的预测功能值。可能是您的数据集中存在矛盾数据。例如,如果您有这样的观察和标签,无论您如何努力,如何交叉验证或堆叠您的算法,您将永远不会获得100%的准确性。 75%的准确度是这里的最高分。
0 => 0
0 => 0
0 => 0
0 => 1 <- this sample have wrong label
1 => 1
1 => 1
1 => 1
1 => 0 <- this sample have wrong label