关于默认情况下固有地驻留在高维空间中的文本分类数据的查询

时间:2012-07-30 15:50:01

标签: text machine-learning svm

我已经阅读了很多支持向量机书籍和技术论文,假设许多作者为大多数文本分类任务选择线性内核。

他们说类似,因为文本分类问题中的数据已经存在于高维空间中,所以在尝试使用SVM对数据进行分类时,选择线性内核来分离数据就足够了。

我对这个假设的理解如下:

在任何文本分类任务中,将为分类任务选择的特征数量(在许多情况下,我们在文档中寻找的某些重要单词)将大部分都非常高,这就是驻留在高维空间的数据。

我对这个假设的理解是否准确?如果不是,我希望有人试图阐明这一假设。

非常感谢任何帮助。

1 个答案:

答案 0 :(得分:0)

据我所知,你是对的。

  • 每个要素都对应一个尺寸。
  • 更高维度=>分离的可能性更高。
  • 非线性内核仅将数据(非线性)转换为更高的维度,以增加分离的可能性,因此在具有许多功能的情况下不需要。

我可以推荐阅读有关SVM和类似内容的讲座:http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 这是我在这个主题中所知道的最好的资源。简短而重要。