使用Weka对数据集进行欠采样或过采样

时间:2019-05-26 03:58:59

标签: weka

嗨,我正在使用Weka框架执行数据挖掘任务。我的数据集非常不平衡。一旦类由1463个标签组成,其他的由104个标签组成。如果我在样本下,更多的类变为104,变量总数变为208。我觉得这是信息丢失。

在这种情况下最合适的选择是什么。

enter image description here

1 个答案:

答案 0 :(得分:0)

您可以尝试使用ClassBalancer过滤器重新加权。 enter image description here

这将保留您的所有实例,只需对其重新加权即可。