SVM硬边距:为什么不平衡的数据集可能导致不良结果?

时间:2013-07-20 17:01:59

标签: machine-learning classification regression svm libsvm

我可以理解为什么软边缘SVM受到不平衡训练集的影响:最小化优化问题的误差可以推动将所有数据训练分类为负(如果|负例子|>> |正例子|)。

但是,在硬边缘SVM中,我没有松弛变量和C costant,所以我不想最小化误差,因为硬边缘SVM预期没有错误(对于问题的定义)!硬边缘SVM只搜索支持向量并最大化类支持由支持向量“识别”的超平面之间的边界;现在,如果我已经“支持”负支持向量(即负类支持超平面)很多点或相同数量的正点,这些不会影响我的边距和分离超平面;

它始终是相同的,因为它仅取决于支持向量,并且无论我是否增加点数,它们总是相同的!为什么硬边界SVM受到不平衡数据集或我的推理错误的影响? 谢谢!

1 个答案:

答案 0 :(得分:4)

对于真正的硬边距SVM,任何数据集都有两个选项,无论其平衡如何:

  1. 训练数据在特征空间中完全可分离,您得到的结果模型有0个训练错误。
  2. 在功能空间中,训练数据可分离,您将无法获得任何内容(无模型)。
  3. 此外,请注意,在给定足够复杂的内核(例如,具有非常大的伽玛的RBF)的情况下,您可以在任何数据集上训练硬边距SVM。但是,由此产生的模型通常很糟糕,因为它是训练数据的总过度拟合。