我有一个字符串列表,我想通过在Python中使用集群来对其进行分类。
list = ['String1', 'String2', 'String3',...]
我想使用Levenshtein距离,所以我使用了水母库。鉴于两个字符串,我知道他们的距离可以这样找到:
jellyfish.levenshtein_distance('string1', 'string2')
我的问题是我不知道如何使用scipy.cluster.hierarchy来获取每个集群的Python列表。我也尝试过使用连接功能:
linkage(y[, method, metric])
但我无法通过群集获得最终列表。
有任何帮助吗?
答案 0 :(得分:0)
使用linkage
在距离上实现层次聚类后,应使用cluster.hierarchy.cut_tree
剪切树。
如果你想要两个集群:
cluster.hierarchy.cut_tree(linkage_output,2).ravel() #.ravel makes it 1D array.