在每次评论中获取单词的极性

时间:2019-03-24 03:18:04

标签: keras nlp sentiment-analysis natural-language-processing

我正在进行特定领域的情感分析,我想获取该特定语料库中的每个独立单词极性(而不是像“ SentiWordNet”或其他词典这样的总谱)

起初我认为使用以下公式会有所帮助:

positive_word_polarity = #word occurrence in positive reviews / # all words in pos and neg reviews    
negative_word_polarity = #word occurrence in negative reviews / # all words in pos and neg reviews    

但是后来我发现了与此解决方案有关的一些问题( 1)我们在正面评论和负面评论中都“好”,在负面评论中 2)可能有些单词出现很多,但效果较低,反之亦然

所以基本上我的输入是评论及其极性,我需要一个包含单词及其极性的词典。

感谢高级帮助

1 个答案:

答案 0 :(得分:0)

要解决问题2),您可以将极性公式乘以tfidf

enter image description here

  

反文档频率是对多少信息的度量   这个词提供了,即在所有文档中是通用还是罕见。

https://en.wikipedia.org/wiki/Tf%E2%80%93idf