在一个不受约束的分类器中,训练集的正面和负面例子的比例应该是多少?

时间:2014-10-02 07:55:14

标签: machine-learning svm training-data

我的训练数据集包含一个类的46071个示例和另一个类的33606个示例。这会导致分类器偏斜吗? 我使用SVM但不想使用SVM的选项来处理偏斜的数据。

1 个答案:

答案 0 :(得分:1)

如果分类类别没有大致相等的表示,数据集会出现偏差(我认为没有准确的值)。

您的数据集不是高度不平衡的数据集。无论如何,它可能会导致对多数(可能是无趣的)类的偏见,特别是使用准确性来评估分类器。

可以通过各种方式管理偏差的训练集。两种常用的方法是:

值得注意的是(来自Issue on Learning from Imbalanced Data Sets):

  在某些领域(例如欺诈检测),类不平衡是   问题的内在因素:欺诈案例通常很少   与大量诚实使用设施相比。

     

但是,类别不平衡有时会发生在没有的类别中   内在的不平衡。

     

当数据收集过程受限(例如,到期)时,就会发生这种情况   出于经济或隐私的原因),从而造成了人为的不平衡。

     

相反,在某些情况下,数据比比皆是,而且是为了   科学家决定选择哪些例子和数量。

     

此外,制造成本也可能存在不平衡   不同的错误,每个案例可能会有所不同。

所以这一切都取决于你的数据,真的!

进一步详情: