如何选择推文进行推特情绪分析

时间:2018-02-14 19:18:56

标签: python nltk sentiment-analysis naivebayes textblob

我正试图对唐纳德特朗普的推文进行情绪分析。 我已经收集了大约100条似乎非常可能或负面的推文。 如

   POS:今天去墨西哥旅行 - 精彩的领导和高素质的人!期待我们的下次会议。

     NEG:歪曲的希拉里克林顿正在花钱买我的广告。我是她不想反对的人。会好玩的!

我使用TextBlob框架训练了NB分类器。不幸的是,我得到了大约40-50%的准确度,而且信息量最大的特征是:

>              contains(I) = True              pos : neg    =      6.1 : 1.0
>           contains(been) = True              pos : neg    =      2.8 : 1.0
>            contains(has) = True              pos : neg    =      2.8 : 1.0
>            contains(you) = True              pos : neg    =      2.8 : 1.0
>             contains(is) = True              neg : pos    =      2.6 : 1.0
>              contains(I) = False             neg : pos    =      2.3 : 1.0
>            contains(not) = True              neg : pos    =      2.2 : 1.0
>             contains(in) = True              neg : pos    =      2.0 : 1.0
>             contains(of) = True              pos : neg    =      1.7 : 1.0
>             contains(in) = False             pos : neg    =      1.7 : 1.0

我认为我做错了什么因为它决定什么是极端的基于简单的词,如“我,我,在,”而不是“悲伤,善良,税收,监狱,上帝保佑,比你”

我所做的只是运行文档中的代码

test_set, train_set = dataset[30:], dataset[:70]
cl = NaiveBayesClassifier(train_set)
print(cl.accuracy(test_set))
cl.show_informative_features(10)

这是一种正确的方法吗? 有人可以帮忙吗?

1 个答案:

答案 0 :(得分:0)

github repository包含来自 Twitter Stream 的关于 Donald Trump 的推文的情绪分析我认为您会发现它很有趣。

如果对来自社交网络的文本进行情绪分析(带有噪音的未结构文本),我建议您使用 VADER 情绪分析工具。

在解决情绪分析问题时你需要考虑很多细节,这个备忘单对你有所帮助 [情绪分析问题] 3

此外,您可以尝试 深度学习方法 进行情感分析,这是当今最先进的技术。 请检查此Kaggle tutorial LSTM Sentiment Analysis | Keras