目标 - 主观文本分类器:

时间:2015-07-20 10:43:07

标签: text-mining sentiment-analysis naivebayes

我正在尝试使用imdb数据为主观和客观文本构建分类器。对于客观数据点,我使用电影的情节摘要作为输入,对于主观数据点,我正在使用电影评论。

我将完整的情节摘要作为一个数据点,在评论的情况下,单个用户的每个评论是单个数据点。在我的数据库中,不同用户对同一电影的不同评论被输入为不同的数据点。

在此之后我清理了特殊字符的单词,删除了停用词,计算了信息增益以创建单词字典,并使用单词频率应用Naive Bayes来计算概率。

现在我的问题是

  • 我的算法是否正确构建分类器?
  • 我的分类器偏重于客观。我犯了错误 在创建培训数据?
  • 我想创建一个可以用于推文或
    的genric classifer 从博客中提取的东西。电影评论数据是否足够?现在它甚至不适用于电影评论数据

0 个答案:

没有答案