Python:Naive Bayes电影评论

时间:2016-11-06 13:31:02

标签: python probability

我的任务是将看不见的电影评论分为正面评论或负面评论。我有两个文件夹,neg和pos,每个文件夹包含1,000个文件,这些文件是已经分类的电影评论。

到目前为止,我所做的是加载了正面评论,并且我将每个单词与每个单词出现的频率一起存储在字典中。然后,我将每个单词的频率除以正文件夹文件中的单词总数。我对负面文件夹做了同样的事情。

我目前担心下一步该去哪儿。最后,我将不得不加载一个看不见的评论,并确定评论是积极的还是消极的。我不是在寻找任何代码,只是指导下一步我需要做什么来实现这一目标。非常感谢任何帮助,谢谢!

2 个答案:

答案 0 :(得分:2)

您所描述的问题是典型的情感分析问题,您对评论所做的工作称为(字,概率)格式的语言模型。我建议你观看Dan Jurafsky教授关于情感分析的视频系列作为斯坦福大学NLP课程here的一部分。 Harrison Kinsley在NLTK [NLP相关任务的python模块]上的另一个很棒的实用tutorial将向您展示如何使用NLTK和Scikit-learn [ML任务的流行python模块]来使用NB分类器进行分类和许多其他人。

答案 1 :(得分:0)

这里最好的指导可能是Udacity ML课程......他们使用优秀的scikit-learn库来分析使用Naive Bayes的电子邮件,特别是NB的高斯风格;这听起来就像你遇到的问题一样:

https://www.udacity.com/course/intro-to-machine-learning--ud120

如果您对这些概念感到满意并且乐于使用SK-learn,那么请直接跳到这里的文档:

http://scikit-learn.org/stable/modules/naive_bayes.html#multinomial-naive-bayes

一旦您获得了正确形式的数据,使用SK-learn来拟合模型然后进行预测实际上是微不足道的。