我正在研究航空公司客户投诉的数据集。由于是“投诉”,所以普遍的共识是所有句子都是“否定”情绪。因此,我想到了一种量化负分的方法。
例如:
更少负面评价:
"the cabin did not have enough leg space but the food was decent" - Score: 0.3
负面评价很高
"complete service was horrible, I will not recommend them ever" - Score: 0.8
对现有方法有何建议?
P.S我不是在寻找确切的答案,关于方向或方法的任何建议都很好。
答案 0 :(得分:0)
正如@Vishal在评论中所建议的那样,添加更多复杂度的最简单方法是实现一个lexicon based sentiment analysis评分模型,您可以自定义对词典中每个单词的极性进行高低评分。您还应该包括一些bigram和trigram词典,以提高准确性。
来自Google,Azure,IBM等的公共情感分析API确实也提供了一定规模的情感。