我正在进行特定领域的情感分析,我想获取该特定语料库中的每个独立单词极性(而不是像“ SentiWordNet”或其他词典这样的总谱)
起初我认为使用以下公式会有所帮助:
positive_word_polarity = #word occurrence in positive reviews / # all words in pos and neg reviews
negative_word_polarity = #word occurrence in negative reviews / # all words in pos and neg reviews
但是后来我发现了与此解决方案有关的一些问题( 1)我们在正面评论和负面评论中都“好”,在负面评论中 2)可能有些单词出现很多,但效果较低,反之亦然
)
所以基本上我的输入是评论及其极性,我需要一个包含单词及其极性的词典。
感谢高级帮助
答案 0 :(得分:0)
要解决问题2)
,您可以将极性公式乘以tfidf
反文档频率是对多少信息的度量 这个词提供了,即在所有文档中是通用还是罕见。