使用scikit进行文本挖掘的SVM

时间:2013-04-04 18:31:47

标签: scikit-learn svm text-mining

有人可以共享一个代码段,其中显示了如何使用scikit进行文本挖掘。我已经看过SVM数值数据的例子,但不太确定如何处理文本。我看了http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但是找不到SVM。

1 个答案:

答案 0 :(得分:1)

在文本挖掘问题中,文本由数值表示。每个特征代表一个单词,值是二进制数。这给出了一个带有大量零和一些1的矩阵,这意味着文本中存在相应的单词。可以根据频率或其他标准给予单词一些权重。然后你得到一些实数而不是0和1.

将数据集转换为数值后,您可以使用此示例:http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC

相关问题