进行基于字典的文本分类时如何创建字典?如何确定价值?

时间:2018-12-12 20:45:32

标签: dictionary sentiment-analysis text-classification

我正在尝试对从Twitter收集的大约100万条推特进行情感分析。我发现很多与文本分类有关的字典。我发现的词典被评为介于-4到+4之间的单词。例如,

  

粉丝3

     

生气-2

     

revenge -2

     

不好-3

     

平静2

     

庆祝3

我想知道单词是如何赋予数字的。如何确定数字有效?如何创建字典?

1 个答案:

答案 0 :(得分:0)

您提供的示例似乎是在(主观上)根据单词的“正/负”含义对单词进行评级。因此,以下推文“那是一次糟糕的庆祝;我是一个生气的粉丝。”会得分+1,而“我是庆祝活动的粉丝!”得分为+6。

然后,任何推文的最终金额都可以用于执行某件事的策略中。您可以将糖果袋寄给任何发推文-10或以下的人,以期振作起来。您可以保留分数为+50或更高的推文,以便向更多人显示。

这都是分析游戏,在给词赋予主观数字之前,除非您提供具体的意图,以对所得数据进行处理,否则没有“正确答案”。