SVM算法是我的模型有效

时间:2016-04-23 13:52:08

标签: machine-learning svm

我有一个数据集,一个大型数据集。我使用T-SNE绘制数据,我找不到线性可分的决策边界,因为我找不到决策边界。

我尝试过SVM并希望它能够工作,如果它能够在更高维度上分离超平面。

目前我的训练准确率达到了94%,但是当我将数据集的大小增加20,000个条目时,我的测试误差达到了50%,训练数据的准确率提高到了65%(这也是更多或者在交叉验证中不太相同),训练精度仍然是93%。  我的问题是,我是否真的准确地解决了这个机器学习问题?或者我是在一个错误的方向,如果可能的话,请给我一些关于解决问题的实用方法的链接。

1 个答案:

答案 0 :(得分:0)

您的overfitting数据似乎有问题。基本上,您的SVM正在记忆训练数据,无法正确预测以前从未见过的新数据。您可以尝试使用较小的C来减少过度拟合。

我认为一般来说很难说SVM是否是解决问题的正确方法。有no free lunch theorem假设可能没有单一的机器学习算法来解决所有问题,我目前还没有意识到将问题映射到最佳算法的任何方法。

您可能应该使用SVM修复当前方法中的明显错误,然后研究它失败的位置和原因。如果你这样做了,你可以选择另一种能解决这些缺点的算法。