nltk袋表达情感的单词

时间:2018-11-08 02:59:55

标签: python nlp nltk

我正在使用python和nltk进行NLP。

我想知道是否有一个数据包,其中有成袋的单词显示与诸如幸福,快乐,愤怒,悲伤等情绪相关的关键字

从我在nltk语料库中挖掘的内容来看,我发现有一些情绪分析语料库包含肯定和否定的评论,与表达情感的关键字并不完全相关。

无论如何,我是否可以建立自己的字典来包含为此目的表达情感的单词?是这样,我该怎么做?是否有此类单词的集合?

任何帮助将不胜感激

1 个答案:

答案 0 :(得分:0)

我不知道有任何将情感与关键字相关联的数据集,但是您可以轻松地从通用情感分析数据集构建一个数据集。

1)从停用词和所有您不想与情感相关联的术语中清除数据集。

2)计算两个情感类别中每个单词的计数并将其标准化。通过这种方式,您可以将概率与每个单词所属的类别相关联。假设您在肯定的句子中出现300倍的单词“爱”,而在否定的句子中出现150倍的单词。归一化,您拥有“爱”一词的可能性为阳性类别的概率为66%(300 /(150 + 300)),阴性类别的概率为33%。

3)为了使字典对边界术语更加健壮,您可以设置阈值以考虑所有最大概率低于阈值的单词的中性。

这是一种构建所需字典的简便方法。您可以使用更复杂的方法作为术语频率与文档频率成反比。