应用错误收集

时间：2013-08-22 06:06:30

标签： classification weka

我的原始数据集有500个实例，有10个类，并且存在类不平衡

为了减少班级不平衡，我使用了过采样技术和我的 new datset有1500个实例和10个类。

对于原始数据集我已应用j48分类器并获得63％的准确度

对于新的采样数据集，我已应用了j48分类器并获得了75％的准确度。

我的问题是我怀疑我的数据是否适用于分类器。

如何检查数据是否过度拟合以及如何减少过度拟合

答案 0 :(得分：0)

通常，人们会谈论分类器过度拟合数据而不是相反。这意味着分类器（例如您的决策树）不会学习数据背后的一般概念，而仅仅是为了近似数据的特性。

要检查您的分类器是否过度，您需要单独的训练和测试集。您的案例中的原始数据和过采样数据不会 - 您需要完全独立的数据，即没有重叠点。 Weka有多种方法可以实现这一点 - 您可以告诉它应该是什么样的列车/测试，使用另一个文件中给出的显式测试集或交叉验证。

一旦你有了单独的套装，你就会在你的训练集上训练你的分类器并在你的测试集上进行评估。你可以获得两组的准确度，如果它们非常不平衡（例如训练集的准确率为90％，而测试集只有50％），这将表明过度拟合。请注意，虽然没有硬规则，但最终完全取决于您的判断。

答案 1 :(得分：0)

如同Lars在回答中提到的那样，目前尚不清楚你的分类器是否因测试数据过度拟合而受到严重影响。你的问题听起来像后一种情况。

此外，在处理不平衡数据时，检查所有类别的测试/训练准确度是否同样重要也很重要，因为您的分类器可能对某些类别具有高度准确性的“偏差”，但对其他类别的准确性非常差。