应用错误收集

时间：2012-07-30 15:50:01

标签： text machine-learning svm

我已经阅读了很多支持向量机书籍和技术论文，假设许多作者为大多数文本分类任务选择线性内核。

他们说类似，因为文本分类问题中的数据已经存在于高维空间中，所以在尝试使用SVM对数据进行分类时，选择线性内核来分离数据就足够了。

我对这个假设的理解如下：

在任何文本分类任务中，将为分类任务选择的特征数量（在许多情况下，我们在文档中寻找的某些重要单词）将大部分都非常高，这就是驻留在高维空间的数据。

我对这个假设的理解是否准确？如果不是，我希望有人试图阐明这一假设。

非常感谢任何帮助。

答案 0 :(得分：0)

据我所知，你是对的。

我可以推荐阅读有关SVM和类似内容的讲座：http://www.csc.kth.se/utbildning/kth/kurser/DD2427/bik12/Schedule.php 这是我在这个主题中所知道的最好的资源。简短而重要。