如果我在NLTK中使用vader,如何提高情感评分?

时间:2018-07-25 11:43:56

标签: python nlp nltk sentiment-analysis text-analysis

我正在使用社交媒体数据。对于肯定的句子,我也几乎获得了中立的分数,并且代码不理解该语句,而只是使用语料库进行分类。

  1. 有什么方法可以改善这种情感评分?人们建议使用复合评分,但效果不佳
  2. 其他任何方法来添加我们自己的语料库并在vader中使用它。我的意思是我不想手动添加单词,有没有预定义情绪的社交媒体语料库?
  3. 是否可以将其他任何模型/方式一起用于没有标签的数据?

1 个答案:

答案 0 :(得分:1)

Vader在工作方式上已经相当成熟,它考虑了否定词,并且专门用于社交媒体片段(您会注意到它的词典中包含诸如笑脸之类的东西)。但是,Vader无法捕捉语言中的细微差别,因为从本质上讲,它只是一种高级的词袋模型。 This文章更全面地讨论了词典与基于机器学习的方法的局限性。

您可以尝试添加其他词典以查看是否可以改善结果,但是由于vader已经在您的域中接受培训,因此我不确定这样做是否成功。我的建议是检查分类错误的代码片段,并确定添加少量额外单词是否足以提高您的准确性。

但是,不用担心如果使用基于词典的方法会导致准确性低下,那仅仅是由于不必手动标记数据以使其适合机器学习而在两者之间进行权衡提高了机器学习通常可以产生的准确性。