标签: text-mining sentiment-analysis naivebayes
我正在尝试使用imdb数据为主观和客观文本构建分类器。对于客观数据点,我使用电影的情节摘要作为输入,对于主观数据点,我正在使用电影评论。
我将完整的情节摘要作为一个数据点,在评论的情况下,单个用户的每个评论是单个数据点。在我的数据库中,不同用户对同一电影的不同评论被输入为不同的数据点。
在此之后我清理了特殊字符的单词,删除了停用词,计算了信息增益以创建单词字典,并使用单词频率应用Naive Bayes来计算概率。
现在我的问题是