我想使用python nltk将SVM分类应用于文本挖掘目的,并获得精确度,回忆准确度不同的测量信息。为此,我预处理数据集并将我的数据集拆分为两个文本文件即-pos_file.txt(正标签) )和neg_file.txt(否定标签)。现在我想应用SVM分类器和随机抽样70%用于训练数据,30%用于测试。我看到了一些关于scikit-learn的文档,但不完全确定我将如何应用它?
pos_file.txt和neg_file.txt都可以被视为单词包。 有用的链接 -
示例文件: pos_file.txt
stackoverflowerror restor default properti page string present
multiprocess invalid assert fetch process inform
folderlevel discoveri option page seen configur scope select project level
示例文件: neg_file.txt
class wizard give error enter class name alreadi exist
unabl make work linux
eclips crash
semant error highlight undeclar variabl doesnt work
此外,对unigram,bigram和trigram应用相同的方法会很有趣。期待您的建议或示例代码。
答案 0 :(得分:8)
以下是将SVM应用于文本分类的非常粗略指南:
以下sklearn文档是在sklearn框架中执行文本分类的一个非常好的示例,我建议将其作为起点: