用于情绪分析的短语语料库

时间:2012-05-28 19:56:02

标签: python nlp nltk

美好的一天, 我试图在python(使用naive-bayes分类器)中编写一个感性分析应用程序,目的是将新闻中的短语分类为正面或负面。 而且我在寻找合适的语料库时遇到了一些麻烦。 我尝试使用“General Inquirer”(http://www.wjh.harvard.edu/~inquirer/homecat.htm),但是我有一个大问题。 由于它是单词列表,而不是短语列表,因此在尝试标记以下句子时会发现以下问题:

  

预计他不会获胜。

这句话被归类为正面,这是错误的。原因是“胜利”是积极的,但“不”没有任何意义,因为“不胜”是一个短语。 任何人都可以建议一个语料库或解决该问题? 您的帮助和见解非常受欢迎。

2 个答案:

答案 0 :(得分:4)

参见例如:“什么是伟大的,什么不是:通过Councill,McDonald和Velikovich学习对否定范围进行分类以改善情绪分析”

http://dl.acm.org/citation.cfm?id=1858959.1858969

和后续,

http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en

e.g。作者:Morante et al 2011

http://eprints.pascal-network.org/archive/00007634/

答案 1 :(得分:3)

在这种情况下,作品会修改取消获胜这一短语的含义,将其翻转。要识别这一点,您需要对该句子进行POS标记,并将否定副词应用于(我认为)动词短语作为否定。我不知道是否有一个语料库会告诉你不会是这种类型的修饰语。