使用情绪评分词典来计算情绪的实际公式是什么。我使用的词典包含-5到5之间的等级。我想计算单个句子的情绪。要么我必须计算句子中所有情绪排名单词的平均值,要么只计算它们。
答案 0 :(得分:9)
有几种方法可以根据句子的评分情绪成分计算索引。每个都是基于比较正面和负面的词,每个词都有优点和缺点。
对于您的量表,衡量单词集中趋势的指标将是一个公平的衡量标准,其中分母是得分单词的数量。这是"相对比例差异的一种形式"采用以下措施。你可能不想分开总的情绪词。所有单词的分数,因为这会使每个句子的度量受到非情绪条款的强烈影响。
如果您认为您描述的11分评分不准确,您可以根据其符号将其分类为正数或负数。然后,您可以在已转换的地方应用以下方法 其中每个 P 和 N 指的是正面和负面编码情感词的计数, O 是所有其他词的计数(所以单词总数= P + N + O )。
绝对比例差异。界限:[0,1]
情绪=( P - N )/( P + N + O )
缺点:句子的分数受非情绪相关内容的影响。
相对比例差异。界限:[-1,1]
情绪=( P - N )/( P + N )
缺点:句子的分数可能倾向于在比例终点附近非常强烈地聚集(因为它们可能包含主要或完全包含正面或负面的内容)。
Logit scale。界限:[ - 无穷大,+无穷大]
Sentiment = log( P + 0.5) - log( N + 0.5)
这往往具有最平滑的属性,并且在零附近对称。 0.5是更平滑的以防止log(0)。
详情请参阅William Lowe, Kenneth Benoit, Slava Mikhaylov, and Michael Laver. (2011) "Scaling Policy Preferences From Coded Political Texts." Legislative Studies Quarterly 26(1, Feb): 123-155.我们比较他们测量左右意识形态的属性,但我们讨论的所有内容也适用于正面负面情绪。
答案 1 :(得分:1)
您可以使用R工具进行情绪计算。这是您可以参考的链接: https://sites.google.com/site/miningtwitter/questions/sentiment/analysis