有人可以共享一个代码段,其中显示了如何使用scikit进行文本挖掘。我已经看过SVM数值数据的例子,但不太确定如何处理文本。我看了http://scikit-learn.org/stable/auto_examples/document_classification_20newsgroups.html 但是找不到SVM。
答案 0 :(得分:1)
在文本挖掘问题中,文本由数值表示。每个特征代表一个单词,值是二进制数。这给出了一个带有大量零和一些1的矩阵,这意味着文本中存在相应的单词。可以根据频率或其他标准给予单词一些权重。然后你得到一些实数而不是0和1.
将数据集转换为数值后,您可以使用此示例:http://scikit-learn.org/dev/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC