如果我在lrge训练集上训练SVM,并且如果类变量为True或False,那么与训练集中的False值相比,True值会非常少,会影响训练模型/结果吗?他们应该平等吗?如果我的训练集没有相同的真假分布,我该如何处理这个问题,以便尽可能有效地完成我的训练?
答案 0 :(得分:3)
拥有不平衡数据是可以的,因为SVM应该能够为与不太可能的实例相关的错误分类错误(例如在您的情况下为“True”)分配更大的惩罚,而不是分配相等的错误权重,这导致不受欢迎的分类器,将所有内容分配给大多数人。但是,您可能使用平衡数据获得更好的结果。这完全取决于您的数据。
您可以人为地扭曲数据以获得更平衡的数据。你为什么不查看这篇论文:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF。
答案 1 :(得分:2)
我的经验是,标准的SVM分类器在非平衡数据上并不能很好地工作。我在C-SVM中遇到过这种情况,对于nu-SVM来说情况更糟。也许你想看看P-SVM,它提供了一种特别适用于不平衡数据的模式。