应用错误收集

使用NLTK从自己的文本数据中分类情感

时间：2012-05-19 19:38:19

标签： python nltk classification

我要问的内容听起来可能与帖子Sentiment analysis with NLTK python for sentences using sample data or webservice?非常相似，但我完成了文本句子的解析和标记化。我的问题是

到目前为止，我在NLTK电影评论示例中看到的任何示例似乎与我的问题最相似，但对于movie_review，训练文本已经处于一种形式，因为它有两个文件夹pos，neg和文本存储在那里。如何对我的大文本进行分类，我是否手动读取数据并将其存储在两个文件夹中。这会成为语料库吗？之后，我可以像处理示例中的movie_review数据一样使用它们吗？

2.如果上述问题的答案是肯定的，有没有办法通过任何工具加速该任务。例如，我想只使用内容中包含“Monty Python”的文本。然后我手动对它们进行分类，然后将它们存储在pos和neg文件夹中。那样有用吗？

请帮帮我

1 个答案:

答案 0 :(得分：3)

是的，您需要一个训练语料库来训练分类器。或者您需要一些其他方法来检测情绪。

要创建训练语料库，您可以手动分类，您可以让其他人为您分类（机械土耳其人很受欢迎），或者您可以corpus bootstrapping。对于情绪，这可能涉及创建2个关键字列表，正面词和否定词。使用这些，您可以创建初始训练语料库，手动纠正，然后训练分类器。这是一个迭代过程，要记住的关键是“垃圾输入，垃圾输出”。换句话说，如果你的训练语料库是错误的，你就不能指望你的分类器是正确的。