不同类别分类的数据集数量是否重要

时间:2014-02-19 14:22:13

标签: neural-network classification svm

我有样本训练数据集,我想知道天气不同课程的日期数。我应该在课堂之间平衡数据集。

1 个答案:

答案 0 :(得分:1)

训练数据中类表示的不对称性通常称为Skewness [https://en.wikipedia.org/wiki/Skewness],并为您的模型带来了一些问题,因此一般情况下您希望避免这种情况

那就是说,这只是一个经验法则,你可以有一个幸福的情况,其中数据点较少的类实际上是正确表示的,而其他的是冗余的,在这种情况下,数据点数量的差异对于每个班级可能并不重要。

主要问题是,如果数据在表示方面是平衡的,那么很难说先验,因此最好的方法是尝试保持数据点的平衡。此外,一些算法对非对称数据敏感,因此即使数据确实恰当地表示了空间,不平衡也可能会给模型带来偏差。

以下是一些可能有用的链接:

http://people.stern.nyu.edu/fprovost/Papers/skew.PDF

http://etabeta.univ.trieste.it/dspace/bitstream/10077/4002/1/Menardi%20Torelli%20DEAMS%20WPS2.pdf

http://florianhartl.com/thoughts-on-machine-learning-dealing-with-skewed-classes.html