应用错误收集

我正在分析GDELT数据集，我想确定主题群集。 GDELT大大简化，解析新闻文章并提取事件。作为其中的一部分，它会识别250个“主题”并标记每个“事件”，它在一列中记录文章中标识的所有主题的分号分隔列表。

有了这个序言，我在2016年提取了大约350,000个分号分隔主题列表的列表，例如这两个：

TAX_FNCACT; TAX_FNCACT_QUEEN; CRISISLEX_T11_UPDATESSYMPATHY; CRISISLEX_CRISISLEXREC;军用; TAX_MILITARY_TITLE; TAX_MILITARY_TITLE_SOLDIER; TAX_FNCACT_SOLDIER; USPEC_POLITICS_GENERAL1; WB_1458_HEALTH_PROMOTION_AND_DISEASE_PREVENTION; WB_1462_WATER_SANITATION_AND_HYGIENE; WB_635_PUBLIC_HEALTH; WB_621_HEALTH_NUTRITION_AND_POPULATION; MARITIME_INCIDENT;海事; MANMADE_DISASTER_IMPLIED;
CRISISLEX_CRISISLEXREC;教育; SOC_POINTSOFINTEREST; SOC_POINTSOFINTEREST_COLLEGE; TAX_FNCACT; TAX_FNCACT_MAN; TAX_ECON_PRICE; SOC_POINTSOFINTEREST_UNIVERSITY; TAX_FNCACT_JUDGES; TAX_FNCACT_CHILD;立法; EPU_POLICY; EPU_POLICY_LAW; TAX_FNCACT_CHILDREN; WB_470_EDUCATION;

如您所见，这两个列表都包含“TAX_FNACT”和“CRISISLEX_CRISISLEXREC”。因此，“TAX_FNACT; CRISISLEX_CRISISLEXREC”是一个2项集群。更好地理解GDELT告诉我们它不是一个特别有用的集群，但它仍然是一个集群。

理想情况下，我想做的是撰写一份列表字典。字典的关键是集群中的项目数，值是所有主题集群的元组列表，其中“关键”数量的元素与集群出现的次数配对。这个理想的算法会运行，直到它识别出最大的集群。

我是否已经存在可用于此目的的算法，如果是，它的名称是什么？如果我不得不猜测，我会想象我们已经创建了一些东西来提取x项目群集，然后我只是从2-＆gt;？直到我没有得到任何结果。