应用错误收集

SVM硬边距：为什么不平衡的数据集可能导致不良结果？

时间：2013-07-20 17:01:59

标签： machine-learning classification regression svm libsvm

我可以理解为什么软边缘SVM受到不平衡训练集的影响：最小化优化问题的误差可以推动将所有数据训练分类为负（如果|负例子|＆gt;＆gt; |正例子|）。

但是，在硬边缘SVM中，我没有松弛变量和C costant，所以我不想最小化误差，因为硬边缘SVM预期没有错误（对于问题的定义）！硬边缘SVM只搜索支持向量并最大化类支持由支持向量“识别”的超平面之间的边界;现在，如果我已经“支持”负支持向量（即负类支持超平面）很多点或相同数量的正点，这些不会影响我的边距和分离超平面;

它始终是相同的，因为它仅取决于支持向量，并且无论我是否增加点数，它们总是相同的！为什么硬边界SVM受到不平衡数据集或我的推理错误的影响？谢谢！

1 个答案:

答案 0 :(得分：4)

对于真正的硬边距SVM，任何数据集都有两个选项，无论其平衡如何：

训练数据在特征空间中完全可分离，您得到的结果模型有0个训练错误。
在功能空间中，训练数据不可分离，您将无法获得任何内容（无模型）。

此外，请注意，在给定足够复杂的内核（例如，具有非常大的伽玛的RBF）的情况下，您可以在任何数据集上训练硬边距SVM。但是，由此产生的模型通常很糟糕，因为它是训练数据的总过度拟合。