我要问的内容听起来可能与帖子Sentiment analysis with NLTK python for sentences using sample data or webservice?非常相似,但我完成了文本句子的解析和标记化。我的问题是
2.如果上述问题的答案是肯定的,有没有办法通过任何工具加速该任务。例如,我想只使用内容中包含“Monty Python”的文本。然后我手动对它们进行分类,然后将它们存储在pos和neg文件夹中。那样有用吗?
请帮帮我
答案 0 :(得分:3)
是的,您需要一个训练语料库来训练分类器。或者您需要一些其他方法来检测情绪。
要创建训练语料库,您可以手动分类,您可以让其他人为您分类(机械土耳其人很受欢迎),或者您可以corpus bootstrapping。对于情绪,这可能涉及创建2个关键字列表,正面词和否定词。使用这些,您可以创建初始训练语料库,手动纠正,然后训练分类器。这是一个迭代过程,要记住的关键是“垃圾输入,垃圾输出”。换句话说,如果你的训练语料库是错误的,你就不能指望你的分类器是正确的。