如何编辑weka配置以找到" 1"

时间:2014-04-10 21:37:18

标签: weka

我有一个带有bool结果的arff表。

大多数行以“0”结尾(如95%)。但是“0”并没有让我感兴趣。我希望weka找到以“1”结尾的行。

但不幸的是,大多数算法一直只选择“0”。这对我没有任何帮助。

如何让weka只达到“1”? (如果可能的话)?

1 个答案:

答案 0 :(得分:1)

我认为你在描述古典阶级失衡问题。也就是说,几乎所有机器学习算法都旨在寻找最佳精度。在你的情况下,如果它每次分配0,它会产生95%的准确性,这是它能做的最好的。 (更多信息谷歌不平衡的类,或类不平衡)。然而,在这种情况下,少数群体的兴趣更大。

很少有快速解决方案: 上采样1级或下采样2级,或两者结合以获得用于训练的平衡数据集 - 您可以使用WEKA SpreadSubsample。您还可以查看SMOTE过滤器和MetaCost分类器。

如果您出于某种原因对准确性感兴趣,则必须在原始分布上测试分类器,因此请使用SpreadSubsample作为过滤分类器。但是您可能已经注意到,如果您对少数族裔感兴趣,准确性并不是模型性能的可靠指标。所以看看课堂回忆,ROC曲线和AUC。关于ROC的好文章在这里http://www.hpl.hp.com/techreports/2003/HPL-2003-4.pdf

祝你好运