应用错误收集

时间：2016-02-09 13:35:20

标签： machine-learning

我很想知道减少多级分类的监督分类模型（特别是Logistic回归）中的类数量是否有助于提高准确性。例如，如果我有10000个样本的50个类，我通过将某些类组合在一起将类的数量减少到30个。这会显着提高我的分类模型的准确性吗？

答案 0 :(得分：5)

如果您组合的类很相似并且有大量样本在它们之间错误分类，它肯定会提高您的性能，因为它会减少错误。

例如：

如果您分组的课程不相似，则很可能无法提高您的准确性，因为您不会减少错误的数量。想象一下，你的分类器是如此优秀，以至于你不会把任何猫误认为是狗，反之，你在组合这些课时不会减少任何错误，因为没有。

答案 1 :(得分：3)

减少类数量的效果取决于算法和数据集。通常，不能保证减少类的数量会提高分类准确性。在许多情况下，情况恰恰相反 - 增加类的数量可以提高分类准确性。

例如，对于许多数据集，您可以使每个观察对应一个唯一的类，最终达到100％的分类准确度。这是一个过度拟合的明显例子，但它指出增加（而不是减少）类的数量有时可以提高分类准确性。