我很想知道减少多级分类的监督分类模型(特别是Logistic回归)中的类数量是否有助于提高准确性。例如,如果我有10000个样本的50个类,我通过将某些类组合在一起将类的数量减少到30个。这会显着提高我的分类模型的准确性吗?
答案 0 :(得分:5)
如果您组合的类很相似并且有大量样本在它们之间错误分类,它肯定会提高您的性能,因为它会减少错误。
例如:
如果您分组的课程不相似,则很可能无法提高您的准确性,因为您不会减少错误的数量。想象一下,你的分类器是如此优秀,以至于你不会把任何猫误认为是狗,反之,你在组合这些课时不会减少任何错误,因为没有。
答案 1 :(得分:3)
减少类数量的效果取决于算法和数据集。通常,不能保证减少类的数量会提高分类准确性。在许多情况下,情况恰恰相反 - 增加类的数量可以提高分类准确性。
例如,对于许多数据集,您可以使每个观察对应一个唯一的类,最终达到100%的分类准确度。这是一个过度拟合的明显例子,但它指出增加(而不是减少)类的数量有时可以提高分类准确性。