如何对weka中的不平衡数据进行分类?

时间:2016-11-03 21:14:52

标签: python weka

我有一个不平衡的训练数据,我在weka中使用逻辑回归进行分类。

  

有两个班级好坏。好有75000个实例和坏   我的测试数据有10000个好数据。

当我训练时,它更倾向于获得良好的数据,即它几乎将所有不良实例分类为好。我该怎么办 ? 我试图在训练数据中有10000个好实例,而不是75000,但问题仍然是相同的。

2 个答案:

答案 0 :(得分:0)

不确定python但是在gui版本中你可以使用SpreadSubsample来减少类不平衡。如果你觉得那么糟糕'这是一个很好的代表,然后你可以尝试不同数量的好的实例。'

要执行此操作,您需要选择过滤器==>监督==>实例==> SpreadSubsample ==>使用' max count'

更改实例数

答案 1 :(得分:0)

您可以尝试一些事情。

  1. 使用Boosting(AdaBoostM1),以便为错误分类的实例提供额外的权重。
  2. 使用weka.classifiers.meta.CostSensitiveClassifier并给出" bad"实例的权重高于" good"实例。 注意:这可能会降低您的整体准确度,但会让您的分类器更好地识别“坏”"实例。