我有一个积极的数据集239和负数据集32的数量,因为它的癌症相关数据我们只有很少的负集。现在,在应用分类时,确保不平衡数据集因为数量庞大而偏向于积极因素。所以我尝试在weka中应用SMOTE。我也试过各种百分比和最近的邻居。令我惊讶的是,而不是负面的类增加了一些实例,并且积极的增加进一步使得不平衡的数据集太偏向了。可以做些什么来克服这一点。并建议我一些其他方法?如果有的话
对于初步研究,我们使用LIBSVM和RBF作为分类器
答案 0 :(得分:2)
在这个不平衡的数据集问题中,我建议使用分层,它涉及对少数类进行过采样或对多数类进行下采样。您可以使用成本敏感分类来模拟WEKA中的分层。
您可以使用两个分类器MetaCost和CostSensitiveClassifier。唯一的问题是成本矩阵中的最优值只能通过试验获得。根据经验,您可以尝试使用与类分布相反的权重来平衡类分布。在您的情况下,这意味着在成本矩阵中为假阳性和假阴性分配成本239。