对列表进行排序的正确方法是什么按活动分类标签?
我通过统计最近发布的1000条消息中标签的出现来收集主题标签。然后我有一个这样的字典:
{"hashtag": 12, "tag": 11, "some": 6, "thing": 4, "yet": 2, "another": 2, "word": 1}
单纯按数字排序无助于识别趋势。也许人们每天都在谈论“标签”,但这并不意味着它有趋势。有了真实数据,您通常会获得静态的前10名,很少包含新标签。
因此,它应该考虑标签频率的变化。但是在具有1000个帖子的滑动窗口中,趋势也会“滑入”,因此您将看不到可以识别为“开始趋势”的跳跃。
识别消息标签中的某个标签或单词何时开始流行的正确标准是什么?