我正在尝试使用libsvm对数据进行分类,如下图所示:
你可以看到“通过眼睛”蓝色和红色之间有一个柔和的分离,但整个区域都存在一些蓝色样本我会说“应该标记为红色”。
我无法让libsvm返回一个有意义的分类并继续获得标记为蓝色的琐碎的所有点。这种情况发生在各种内核和参数值上。我认为使用成本变量并不能解决这个问题,因为蓝色样本比红色样本多10倍。
我错过了什么吗?是否有一些libsvm参数处理这种情况?
或者SVM不适合这项任务,你可以提出一些建议吗?
答案 0 :(得分:0)
应该可以通过线性SVM获得非平凡的解决方案。 您应该尝试不同的C值,并且由于您的数据不平衡,请使用wi参数来确定每个类的权重。
答案 1 :(得分:0)
尝试进行一些主成分分析或一些独立成分分析作为预处理。这应该可以帮到你。虹膜数据库有很多例子。