我正在分析GDELT数据集,我想确定主题群集。 GDELT大大简化,解析新闻文章并提取事件。作为其中的一部分,它会识别250个“主题”并标记每个“事件”,它在一列中记录文章中标识的所有主题的分号分隔列表。
有了这个序言,我在2016年提取了大约350,000个分号分隔主题列表的列表,例如这两个:
- TAX_FNCACT; TAX_FNCACT_QUEEN; CRISISLEX_T11_UPDATESSYMPATHY; CRISISLEX_CRISISLEXREC;军用; TAX_MILITARY_TITLE; TAX_MILITARY_TITLE_SOLDIER; TAX_FNCACT_SOLDIER; USPEC_POLITICS_GENERAL1; WB_1458_HEALTH_PROMOTION_AND_DISEASE_PREVENTION; WB_1462_WATER_SANITATION_AND_HYGIENE; WB_635_PUBLIC_HEALTH; WB_621_HEALTH_NUTRITION_AND_POPULATION; MARITIME_INCIDENT;海事; MANMADE_DISASTER_IMPLIED;
- CRISISLEX_CRISISLEXREC;教育; SOC_POINTSOFINTEREST; SOC_POINTSOFINTEREST_COLLEGE; TAX_FNCACT; TAX_FNCACT_MAN; TAX_ECON_PRICE; SOC_POINTSOFINTEREST_UNIVERSITY; TAX_FNCACT_JUDGES; TAX_FNCACT_CHILD;立法; EPU_POLICY; EPU_POLICY_LAW; TAX_FNCACT_CHILDREN; WB_470_EDUCATION;
如您所见,这两个列表都包含“TAX_FNACT”和“CRISISLEX_CRISISLEXREC”。因此,“TAX_FNACT; CRISISLEX_CRISISLEXREC”是一个2项集群。更好地理解GDELT告诉我们它不是一个特别有用的集群,但它仍然是一个集群。
理想情况下,我想做的是撰写一份列表字典。字典的关键是集群中的项目数,值是所有主题集群的元组列表,其中“关键”数量的元素与集群出现的次数配对。这个理想的算法会运行,直到它识别出最大的集群。
我是否已经存在可用于此目的的算法,如果是,它的名称是什么?如果我不得不猜测,我会想象我们已经创建了一些东西来提取x项目群集,然后我只是从2->?直到我没有得到任何结果。