使用Levenshtein距离在Python中实现层次聚类

时间:2016-04-17 14:43:00

标签: python cluster-analysis levenshtein-distance hierarchical

根据我之前的问题,我已经使用Python和DSP实现了大量字符串的聚类算法。 Levenshtein距离..但是需要很长时间才能完成聚类。有什么建议吗?

<> 在for循环中迭代列表     对于列表中的每个项目         再次浏览列表,找到相似百分比         如果相似性>阈值,移动到群集     结束循环

1 个答案:

答案 0 :(得分:0)

首先,使用分析器查看大部分时间花在哪里。我怀疑它是在实际的Levenshtein计算中,但确定是好的。 Iff是:

  1. 使用Cython实现Levenshtein函数。这将为您带来巨大的加速。
  2. 计算多个线程中的对。例如。如果你有1000个字符串,你有1000000对,所以你可以让8个线程中的每一个做125000对。