Python中的字符串聚类

时间:2016-04-30 01:39:39

标签: python string cluster-analysis

我有一个字符串列表,我想通过在Python中使用集群来对其进行分类。

list = ['String1', 'String2', 'String3',...]

我想使用Levenshtein距离,所以我使用了水母库。鉴于两个字符串,我知道他们的距离可以这样找到:

jellyfish.levenshtein_distance('string1', 'string2')

我的问题是我不知道如何使用scipy.cluster.hierarchy来获取每个集群的Python列表。我也尝试过使用连接功能:

linkage(y[, method, metric])

但我无法通过群集获得最终列表。

有任何帮助吗?

1 个答案:

答案 0 :(得分:0)

使用linkage在距离上实现层次聚类后,应使用cluster.hierarchy.cut_tree剪切树。 如果你想要两个集群:

cluster.hierarchy.cut_tree(linkage_output,2).ravel() #.ravel makes it 1D array.