使用不同大小的组进行聚类

时间:2016-11-19 00:38:18

标签: python-3.x scikit-learn networkx

我有defaultdict()个实例(由键表示)和在该实例中交互的ID。这些群体的大小各不相同:

{
'2450-66-L116': {'7652', '8089', '9687', '7298', '7622'},
'2089-48-LQ16': {'7628', '1269', '96664', '76493'},
'2827-176-LE16': {'76538', '1269', '6688', '7990', '7649'},
'2322-153-L116': {'1588', '8460', '7606', '15745'},
'4063-1-LE16': {'9339', '8682'},
'2142-9-L116': {'7990', '7684', '9687'},
'608-664-LE16': {'7610'},
'2789-204-L116': {'8089', '5782', '96664', '7990'},
'994-31-L116': {'15745', '7610'},
'994-35-LE16': {'12569', '7802'},
'1559-1080-L115': {'7652', '8682', '7607', '9675', '7614', '7802', '7610'},
'5326-30-L116': {'9687', '7684', '7652', '5782', '7638', '5907', '7663'}
}

我需要创建通常在相同实例中进行交互的ID组。使用此数据创建ID群集的最佳方法是什么?我应该使用kmeans,networkx还是其他什么?

1 个答案:

答案 0 :(得分:1)

首先,在进行任何模型化时使用字典绝对不是好事。 你应该创建一个数组或pandas数据帧,其id为label,所有实例都是变量(如果它们链接到ID,它们应该为0或1)。 然后你可以尝试建立一个kmeans,但我不确定你有足够的数据来构建任何东西...