应用错误收集

使用scikit进行文本挖掘的SVM

时间：2013-04-04 18:31:47

标签： scikit-learn svm text-mining

有人可以共享一个代码段，其中显示了如何使用scikit进行文本挖掘。我已经看过SVM数值数据的例子，但不太确定如何处理文本。我看了http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但是找不到SVM。

1 个答案:

答案 0 :(得分：1)

在文本挖掘问题中，文本由数值表示。每个特征代表一个单词，值是二进制数。这给出了一个带有大量零和一些1的矩阵，这意味着文本中存在相应的单词。可以根据频率或其他标准给予单词一些权重。然后你得到一些实数而不是0和1.

将数据集转换为数值后，您可以使用此示例：http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC