我正在使用七个词典来计算包含论坛帖子的数据集的情感得分。除了消除空白,特殊字符,数字和停用词等所有杂音外,阻止词干为什么也很重要?
我正在使用SentimentAnalysis软件包中的Harvard.IV,Qdap,Henry's Financial词典和Loughran-McDonald Financial词典,以及AFINN,NRC和BING词典。
答案 0 :(得分:2)
这是有争议的说法,词干对情感分析很重要。
首先,将具有不同情感值或感官的不同术语形成为同一词干。您可以检查Porter Stemmer on Harvard General Inquirer。页面中的一个示例是 closeness ,并且 close 被插入到同一术语中,其中一个术语具有积极意义首先是负数。
关于词干分析的另一个观点对情感分析很重要,那就是词干之后几乎不可能进行句法和语义处理。例如,如果要对术语加词性,则为句子创建分析树,或者找到否定的触发条件和范围;阻止不是要考虑的应用程序。
例如,如果我们在句子中有术语 pretty ,并且我们想确定该术语是形容词还是副词,其中 < em>漂亮女人 是积极的, 非常糟糕 是消极的,应用词干标记pos-tagging。
欢呼
答案 1 :(得分:0)
因为这样可以减少数据中的噪音。词干提取过程将屈折形式和相关形式简化为单词的共同基数。请从The Stanford Natural Language Processing Group
查看此非常有用的教程