我正在开展这个项目,我希望从他最近的推文中对Twitter用户的总体情绪进行分类。由于推文可以属于各种各样的域名,我应该怎么做呢?
我可以使用朴素贝叶斯算法(例如:http://phpir.com/bayesian-opinion-mining)但由于推文可以属于各种各样的域,我不确定这是否非常准确。
另一种选择是使用像SentiWordNet或here这样的情感词典。这是一个更好的方法,我不知道。
如果我计划使用Naive Bayes或其他算法,我还可以在哪里获取数据来训练我的分类器?
只是在这里添加,我主要使用PHP进行编码。
答案 0 :(得分:2)
如果您专注于逐字方法,则可以使用SentiWordNet
作为分类器数据。这是多么简单Bayesian spam filters
的作用;它专注于每个单词。
这里的优点是虽然SentiWordNet
中的许多单词具有多种含义,每种含义都有不同的positive/objective/negative
分数,但您可以尝试使用推文中其他单词的分数来缩小关于每个多义词的最恰当含义,它可以为每个单词和整个推文提供更准确的分数。