我正在尝试对从Twitter收集的大约100万条推特进行情感分析。我发现很多与文本分类有关的字典。我发现的词典被评为介于-4到+4之间的单词。例如,
粉丝3
生气-2
revenge -2
不好-3
平静2
庆祝3
我想知道单词是如何赋予数字的。如何确定数字有效?如何创建字典?
答案 0 :(得分:0)
您提供的示例似乎是在(主观上)根据单词的“正/负”含义对单词进行评级。因此,以下推文“那是一次糟糕的庆祝;我是一个生气的粉丝。”会得分+1,而“我是庆祝活动的粉丝!”得分为+6。
然后,任何推文的最终金额都可以用于执行某件事的策略中。您可以将糖果袋寄给任何发推文-10或以下的人,以期振作起来。您可以保留分数为+50或更高的推文,以便向更多人显示。
这都是分析游戏,在给词赋予主观数字之前,除非您提供具体的意图,以对所得数据进行处理,否则没有“正确答案”。