线性SVM与非线性SVM高维数据

时间:2017-06-17 15:10:49

标签: svm data-mining apache-spark-mllib

我正在开发一个项目,我使用Spark Mllib线性SVM对一些数据进行分类(l2正则化)。我有200个正面观察,150个(生成)负观察,每个有744个特征,代表一个人在房子不同区域的活动水平。

我已经进行了一些测试和" areaUnderROC"度量是0.991,似乎该模型非常好地分类我提供给它的数据。 我做了一些研究,我发现线性SVM在高维数据方面很好,但问题是我不明白线性可以如何很好地划分我的数据。

我认为在二维方面,也许这就是问题,但在查看底部图像时,我90%确定我的数据看起来更像是非线性问题enter image description here

所以我在测试中取得好成绩是正常的吗?难道我做错了什么?我应该改变方法吗?

1 个答案:

答案 0 :(得分:2)

我认为您的问题是关于为什么线性SVM可以很好地分类我的高维度数据,即使数据应该是非线性的'
一些数据集看起来像低维非线性,就像右边的示例图像一样,但很难说数据集在高维时肯定是非线性的,因为nD非线性可能是线性的(n + 1)D space.So我不知道为什么你90%确定你的数据集是非线性的,即使它是一个高维度。
最后,我认为您在测试样本中获得良好的测试结果是正常的,因为它表明您的数据集在高维度上只是线性或接近线性,或者它不能很好地工作。也许交叉验证可以帮助您确认你的方法是否合适。