应用错误收集

目标 - 主观文本分类器：

时间：2015-07-20 10:43:07

标签： text-mining sentiment-analysis naivebayes

我正在尝试使用imdb数据为主观和客观文本构建分类器。对于客观数据点，我使用电影的情节摘要作为输入，对于主观数据点，我正在使用电影评论。

我将完整的情节摘要作为一个数据点，在评论的情况下，单个用户的每个评论是单个数据点。在我的数据库中，不同用户对同一电影的不同评论被输入为不同的数据点。

在此之后我清理了特殊字符的单词，删除了停用词，计算了信息增益以创建单词字典，并使用单词频率应用Naive Bayes来计算概率。

现在我的问题是

我的算法是否正确构建分类器？
我的分类器偏重于客观。我犯了错误在创建培训数据？
我想创建一个可以用于推文或
的genric classifer 从博客中提取的东西。电影评论数据是否足够？现在它甚至不适用于电影评论数据

0 个答案:

没有答案