应用错误收集

时间：2018-12-12 20:45:32

标签： dictionary sentiment-analysis text-classification

我正在尝试对从Twitter收集的大约100万条推特进行情感分析。我发现很多与文本分类有关的字典。我发现的词典被评为介于-4到+4之间的单词。例如，

粉丝3

生气-2

revenge -2

不好-3

平静2

庆祝3

我想知道单词是如何赋予数字的。如何确定数字有效？如何创建字典？

答案 0 :(得分：0)

您提供的示例似乎是在（主观上）根据单词的“正/负”含义对单词进行评级。因此，以下推文“那是一次糟糕的庆祝；我是一个生气的粉丝。”会得分+1，而“我是庆祝活动的粉丝！”得分为+6。

然后，任何推文的最终金额都可以用于执行某件事的策略中。您可以将糖果袋寄给任何发推文-10或以下的人，以期振作起来。您可以保留分数为+50或更高的推文，以便向更多人显示。

这都是分析游戏，在给词赋予主观数字之前，除非您提供具体的意图，以对所得数据进行处理，否则没有“正确答案”。