我的训练数据集包含一个类的46071个示例和另一个类的33606个示例。这会导致分类器偏斜吗? 我使用SVM但不想使用SVM的选项来处理偏斜的数据。
答案 0 :(得分:1)
如果分类类别没有大致相等的表示,数据集会出现偏差(我认为没有准确的值)。
您的数据集不是高度不平衡的数据集。无论如何,它可能会导致对多数(可能是无趣的)类的偏见,特别是使用准确性来评估分类器。
可以通过各种方式管理偏差的训练集。两种常用的方法是:
在数据级别a form of re-sampling,例如
在算法层面,调整各类的成本,以对抗阶级不平衡。
即使您不喜欢这种方法,使用SVM也可以更改类权重方案(例如 How should I teach machine learning algorithm using data with big disproportion of classes? (SVM))。您可能更喜欢这样进行二次采样,因为这意味着由于使用了特定的子样本,结果没有变化。
值得注意的是(来自Issue on Learning from Imbalanced Data Sets):
在某些领域(例如欺诈检测),类不平衡是 问题的内在因素:欺诈案例通常很少 与大量诚实使用设施相比。但是,类别不平衡有时会发生在没有的类别中 内在的不平衡。
当数据收集过程受限(例如,到期)时,就会发生这种情况 出于经济或隐私的原因),从而造成了人为的不平衡。
相反,在某些情况下,数据比比皆是,而且是为了 科学家决定选择哪些例子和数量。
此外,制造成本也可能存在不平衡 不同的错误,每个案例可能会有所不同。
所以这一切都取决于你的数据,真的!
进一步详情: