Question

我正试图对唐纳德特朗普的推文进行情绪分析。我已经收集了大约100条似乎非常可能或负面的推文。如

POS：今天去墨西哥旅行 - 精彩的领导和高素质的人！期待我们的下次会议。
NEG：歪曲的希拉里克林顿正在花钱买我的广告。我是她不想反对的人。会好玩的！

我使用TextBlob框架训练了NB分类器。不幸的是，我得到了大约40-50％的准确度，而且信息量最大的特征是：

>              contains(I) = True              pos : neg    =      6.1 : 1.0
>           contains(been) = True              pos : neg    =      2.8 : 1.0
>            contains(has) = True              pos : neg    =      2.8 : 1.0
>            contains(you) = True              pos : neg    =      2.8 : 1.0
>             contains(is) = True              neg : pos    =      2.6 : 1.0
>              contains(I) = False             neg : pos    =      2.3 : 1.0
>            contains(not) = True              neg : pos    =      2.2 : 1.0
>             contains(in) = True              neg : pos    =      2.0 : 1.0
>             contains(of) = True              pos : neg    =      1.7 : 1.0
>             contains(in) = False             pos : neg    =      1.7 : 1.0

我认为我做错了什么因为它决定什么是极端的基于简单的词，如“我，我，在，”而不是“悲伤，善良，税收，监狱，上帝保佑，比你”

我所做的只是运行文档中的代码

test_set, train_set = dataset[30:], dataset[:70]
cl = NaiveBayesClassifier(train_set)
print(cl.accuracy(test_set))
cl.show_informative_features(10)

这是一种正确的方法吗？有人可以帮忙吗？

Answer 1

此github repository包含来自 Twitter Stream 的关于 Donald Trump 的推文的情绪分析我认为您会发现它很有趣。

如果对来自社交网络的文本进行情绪分析（带有噪音的未结构文本），我建议您使用 VADER 情绪分析工具。

在解决情绪分析问题时你需要考虑很多细节，这个备忘单对你有所帮助 [情绪分析问题] 3

此外，您可以尝试 深度学习方法 进行情感分析，这是当今最先进的技术。请检查此Kaggle tutorial LSTM Sentiment Analysis | Keras

如何选择推文进行推特情绪分析

1 个答案: