我可以理解为什么软边缘SVM受到不平衡训练集的影响:最小化优化问题的误差可以推动将所有数据训练分类为负(如果|负例子|>> |正例子|)。
但是,在硬边缘SVM中,我没有松弛变量和C costant,所以我不想最小化误差,因为硬边缘SVM预期没有错误(对于问题的定义)!硬边缘SVM只搜索支持向量并最大化类支持由支持向量“识别”的超平面之间的边界;现在,如果我已经“支持”负支持向量(即负类支持超平面)很多点或相同数量的正点,这些不会影响我的边距和分离超平面;
它始终是相同的,因为它仅取决于支持向量,并且无论我是否增加点数,它们总是相同的!为什么硬边界SVM受到不平衡数据集或我的推理错误的影响? 谢谢!
答案 0 :(得分:4)
对于真正的硬边距SVM,任何数据集都有两个选项,无论其平衡如何:
此外,请注意,在给定足够复杂的内核(例如,具有非常大的伽玛的RBF)的情况下,您可以在任何数据集上训练硬边距SVM。但是,由此产生的模型通常很糟糕,因为它是训练数据的总过度拟合。