当我有类重叠时,机器学习中的分类器会更好吗?

时间:2015-05-07 11:43:12

标签: machine-learning classification overlap overlapping

我必须根据属于两个类之一的数据进行预测,然而,这些类重叠(让我们说很多)。我想知道什么分类器可以根据其他人的经验给出最好的结果。

3 个答案:

答案 0 :(得分:0)

由于类不是线性可分的,因此解决此分类问题的一种方法是使用内核技巧进行预测。内核技巧将给定的输入空间转换为数据可分离的高维特征空间。

以下是一些可能有所帮助的链接:

1)https://www.youtube.com/watch?v=3liCbRZPrZA

2)http://www.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html

首先,内核技巧可能看起来很复杂。但是,它很容易实现,并且对预测非常有用。

答案 1 :(得分:0)

内核使得每个数据在特征空间中可线性分离并非100%真实。这取决于数据本身。例如,如果我们使用RBF内核,则可以使由另一个数据集包围的一个数据集线性分离。如果两个集合完全重叠并且由太多数据点组成,则找不到可以分离它们的内核是不可能的!

答案 2 :(得分:0)

我个人更喜欢神经网络。它们可以更好地实现,并且比SVM更灵活,因为在隐藏层中学习“分离”(无论是线性的还是非线性的),而不需要我们决定内核(如在SVM中)。但同样,一切都取决于许多因素,如数据的复杂性,类平衡,目标的质量(是否存在冲突)等。