我正在使用Weka为医疗问题开发分类器。这个数据集有一个类不平衡的情况,我想知道是否还存在类重叠的问题。每条记录有30个属性,如何使用Weka功能发现是否存在类重叠?
答案 0 :(得分:0)
要解决类不平衡问题,可以使用SMOTE。它位于Weka监督过滤器(实例)中。但你能解释一下课堂重叠是什么意思吗?
答案 1 :(得分:0)
当来自不同类的一些样本具有非常相似的特征时,会发生类重叠
答案 2 :(得分:0)
我认为你的意思是“类重叠”,存在属于不同类的类似实例。简单地说,您可以删除它们。在awk中,您可以执行以下操作:
awk '!NF || !seen[$0]++' inputFile > outputFile