我的原始数据集有500个实例,有10个类,并且存在类不平衡
为了减少班级不平衡,我使用了过采样技术和我的 new datset有1500个实例和10个类。
对于原始数据集我已应用j48分类器并获得63%的准确度
对于新的采样数据集,我已应用了j48分类器并获得了75%的准确度。
我的问题是我怀疑我的数据是否适用于分类器。
如何检查数据是否过度拟合以及如何减少过度拟合
答案 0 :(得分:0)
通常,人们会谈论分类器过度拟合数据而不是相反。这意味着分类器(例如您的决策树)不会学习数据背后的一般概念,而仅仅是为了近似数据的特性。
要检查您的分类器是否过度,您需要单独的训练和测试集。您的案例中的原始数据和过采样数据不会 - 您需要完全独立的数据,即没有重叠点。 Weka有多种方法可以实现这一点 - 您可以告诉它应该是什么样的列车/测试,使用另一个文件中给出的显式测试集或交叉验证。
一旦你有了单独的套装,你就会在你的训练集上训练你的分类器并在你的测试集上进行评估。你可以获得两组的准确度,如果它们非常不平衡(例如训练集的准确率为90%,而测试集只有50%),这将表明过度拟合。请注意,虽然没有硬规则,但最终完全取决于您的判断。
答案 1 :(得分:0)
如同Lars在回答中提到的那样,目前尚不清楚你的分类器是否因测试数据过度拟合而受到严重影响。你的问题听起来像后一种情况。
此外,在处理不平衡数据时,检查所有类别的测试/训练准确度是否同样重要也很重要,因为您的分类器可能对某些类别具有高度准确性的“偏差”,但对其他类别的准确性非常差。