我已经阅读了很多支持向量机书籍和技术论文,假设许多作者为大多数文本分类任务选择线性内核。
他们说类似,因为文本分类问题中的数据已经存在于高维空间中,所以在尝试使用SVM对数据进行分类时,选择线性内核来分离数据就足够了。
我对这个假设的理解如下:
在任何文本分类任务中,将为分类任务选择的特征数量(在许多情况下,我们在文档中寻找的某些重要单词)将大部分都非常高,这就是驻留在高维空间的数据。
我对这个假设的理解是否准确?如果不是,我希望有人试图阐明这一假设。
非常感谢任何帮助。
答案 0 :(得分:0)
据我所知,你是对的。
我可以推荐阅读有关SVM和类似内容的讲座:http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 这是我在这个主题中所知道的最好的资源。简短而重要。