使用NLTK从自己的文本数据中分类情感

时间:2012-05-19 19:38:19

标签: python nltk classification

我要问的内容听起来可能与帖子Sentiment analysis with NLTK python for sentences using sample data or webservice?非常相似,但我完成了文本句子的解析和标记化。我的问题是

  1. 到目前为止,我在NLTK电影评论示例中看到的任何示例似乎与我的问题最相似,但对于movie_review,训练文本已经处于一种形式,因为它有两个文件夹pos,neg和文本存储在那里。如何对我的大文本进行分类,我是否手动读取数据并将其存储在两个文件夹中。这会成为语料库吗?之后,我可以像处理示例中的movie_review数据一样使用它们吗?
  2. 2.如果上述问题的答案是肯定的,有没有办法通过任何工具加速该任务。例如,我想只使用内容中包含“Monty Python”的文本。然后我手动对它们进行分类,然后将它们存储在pos和neg文件夹中。那样有用吗?

    请帮帮我

1 个答案:

答案 0 :(得分:3)

是的,您需要一个训练语料库来训练分类器。或者您需要一些其他方法来检测情绪。

要创建训练语料库,您可以手动分类,您可以让其他人为您分类(机械土耳其人很受欢迎),或者您可以corpus bootstrapping。对于情绪,这可能涉及创建2个关键字列表,正面词和否定词。使用这些,您可以创建初始训练语料库,手动纠正,然后训练分类器。这是一个迭代过程,要记住的关键是“垃圾输入,垃圾输出”。换句话说,如果你的训练语料库是错误的,你就不能指望你的分类器是正确的。