我正试图对唐纳德特朗普的推文进行情绪分析。 我已经收集了大约100条似乎非常可能或负面的推文。 如
POS:今天去墨西哥旅行 - 精彩的领导和高素质的人!期待我们的下次会议。 NEG:歪曲的希拉里克林顿正在花钱买我的广告。我是她不想反对的人。会好玩的!
我使用TextBlob框架训练了NB分类器。不幸的是,我得到了大约40-50%的准确度,而且信息量最大的特征是:
> contains(I) = True pos : neg = 6.1 : 1.0
> contains(been) = True pos : neg = 2.8 : 1.0
> contains(has) = True pos : neg = 2.8 : 1.0
> contains(you) = True pos : neg = 2.8 : 1.0
> contains(is) = True neg : pos = 2.6 : 1.0
> contains(I) = False neg : pos = 2.3 : 1.0
> contains(not) = True neg : pos = 2.2 : 1.0
> contains(in) = True neg : pos = 2.0 : 1.0
> contains(of) = True pos : neg = 1.7 : 1.0
> contains(in) = False pos : neg = 1.7 : 1.0
我认为我做错了什么因为它决定什么是极端的基于简单的词,如“我,我,在,”而不是“悲伤,善良,税收,监狱,上帝保佑,比你”
我所做的只是运行文档中的代码
test_set, train_set = dataset[30:], dataset[:70]
cl = NaiveBayesClassifier(train_set)
print(cl.accuracy(test_set))
cl.show_informative_features(10)
这是一种正确的方法吗? 有人可以帮忙吗?
答案 0 :(得分:0)
此github repository包含来自 Twitter Stream 的关于 Donald Trump 的推文的情绪分析我认为您会发现它很有趣。
如果对来自社交网络的文本进行情绪分析(带有噪音的未结构文本),我建议您使用 VADER 情绪分析工具。
在解决情绪分析问题时你需要考虑很多细节,这个备忘单对你有所帮助 [情绪分析问题] 3
此外,您可以尝试 深度学习方法 进行情感分析,这是当今最先进的技术。 请检查此Kaggle tutorial LSTM Sentiment Analysis | Keras