特征空间的维度以在支持向量机中获得可分离的数据

时间:2014-02-28 13:35:18

标签: machine-learning classification svm

我准备了一些关于支持向量机的论文。 众所周知,内核技巧使我们能够隐式地将数据从输入空间转换为某些(可能无限维)特征空间。

作为简短参考,您可以使用 Cristianini,Nello; Shawe-Taylor,John:支持向量机和其他基于内核的学习方法的介绍。剑桥:剑桥大学出版社,2000年。

由于我们当时不知道相应的特征映射,我想知道在使用内核时是否有关于特征空间维度的任何估计。 特别是如果有任何结果我会感兴趣,说明数据在结果特征空间中是否可以线性分离。 也许有人知道关于这个话题的一些(最近的)论文。我真的很感兴趣!

2 个答案:

答案 0 :(得分:1)

有两种方法:硬 - 软边距 SVM。您可以在this question中阅读两者的详细说明,但简而言之,只有硬边距SVM要求数据完全可分。另一方面,软边际SVM允许一定比例的错误标记数据,但仍然表现良好(通常甚至更好)。鉴于此,您无需检查数据的线性可分性。相反,您可以使用分类器参数并运行交叉验证来测量准确度

答案 1 :(得分:1)

您可能会对以下文章感兴趣:Chen et al. On linear separability of data sets in feature space

作者推导出公式,通过原始输入空间中的信息判断特征空间中两个无限数据集的线性可分性。他们得出结论,在原始输入空间中具有空重叠的任何两个有限数据集将在无限维特征空间中线性分离。对于两个无限数据集,还获得了它们在特征空间中的线性可分性的若干充分且必要的条件。