我正在尝试使用斯坦福大学的CoreNLP库(la https://www.openshift.com/blogs/day-20-stanford-corenlp-performing-sentiment-analysis-of-twitter-using-java)从Twitter推导出情绪 - 所以请看这里我正在实施的代码。
我正在获得结果,但我注意到我的目标数据集和我使用的另一个数据集中的“负面”结果似乎存在偏差 - Sanders Analytics Twitter Sentiment Corpus {{3} - 即使地面实况数据没有这种偏见。
我发布这个问题是因为其他人遇到过这种情况并且/或者可能知道这是我做过的事情的结果还是CoreNLP代码中的一些错误。
(编辑 - 抱歉我花了这么长时间回复) 我发布的链接显示我的意思。我没有足够的声誉来发布图片,并且在这篇文章中只能包含两个链接,因此我将在评论中添加链接。
答案 0 :(得分:5)
我想建议这只是一个域名不匹配。斯坦福RNTN受过电影评论片段的培训,您正在测试Twitter数据。除了主题不匹配之外,推文也往往是不合语法的,并使用缩写("创意")语言。 如果我不得不提出一个更具体的理由,我会从一个词汇不匹配开始。也许负面情绪以与领域无关的方式表达,例如有共同的形容词,积极的情绪更依赖于领域或更微妙。
您仍然感到有趣的是,您会产生负面偏见。 Polyanna假设表明了一种积极的偏见,恕我直言。
超越原始问题,有几种方法专门针对微博数据进行情绪分析。参见例如"The Good, The Bad and the OMG!" by Kouloumpis et al.
答案 1 :(得分:4)