我正在使用社交媒体数据。对于肯定的句子,我也几乎获得了中立的分数,并且代码不理解该语句,而只是使用语料库进行分类。
答案 0 :(得分:1)
Vader在工作方式上已经相当成熟,它考虑了否定词,并且专门用于社交媒体片段(您会注意到它的词典中包含诸如笑脸之类的东西)。但是,Vader无法捕捉语言中的细微差别,因为从本质上讲,它只是一种高级的词袋模型。 This文章更全面地讨论了词典与基于机器学习的方法的局限性。
您可以尝试添加其他词典以查看是否可以改善结果,但是由于vader已经在您的域中接受培训,因此我不确定这样做是否成功。我的建议是检查分类错误的代码片段,并确定添加少量额外单词是否足以提高您的准确性。
但是,不用担心如果使用基于词典的方法会导致准确性低下,那仅仅是由于不必手动标记数据以使其适合机器学习而在两者之间进行权衡提高了机器学习通常可以产生的准确性。