Question

我希望有人能纠正我对VADER对文本评分方式的理解。我已经阅读了有关该过程here的说明，但是在重新创建它描述的过程时，我无法使测试句子的综合得分与Vader的输出相匹配。假设我们有这样的句子：

"I like using VADER, its a fun tool to use"

VADER捡起的单词是“喜欢”（+1.5分）和“有趣”（+2.3分）。根据文档，将这些值相加（等于+3.8），然后使用以下函数将其标准化为0到1之间的范围：

(alpha = 15)
x / x2 + alpha

有了我们的电话号码，它应该变成：

3.8 / 14.44 + 15 = 0.1290

VADER，但是，输出的复合分数如下：

Scores: {'neg': 0.0, 'neu': 0.508, 'pos': 0.492, 'compound': 0.7003}

我的推理哪里出错了？ Similar个问题已经问过几次，但是尚未提供VADER分类的实际示例。任何帮助将不胜感激。

Answer 1

只是您的归一化是错误的。从code定义函数：

def normalize(score, alpha=15):
"""
Normalize the score to be between -1 and 1 using an alpha that
approximates the max expected value
"""
norm_score = score/math.sqrt((score*score) + alpha)
return norm_score

所以您有3.8 / sqrt（3.8 * 3.8 + 15）= 0.7003

NLTK的Vader评分文字示例

1 个答案: