应用错误收集

我正在寻找一个非常具体的领域的建议。这是故事：我正在研究我的node.js项目，以下是我想要添加到mt应用程序中的工具。我有足够的URL（大约20,000），我想要做的是将类似的网址集中在一起。如果两个网址相似，则应将它们重新组合到同一群集中。

我已经找到了一个有趣的算法：Simil，它提供了两个字符串之间相似度的百分比：http://www.accessmvp.com/tomvanstiphout/simil.htm

这里的问题是找到一种“干净”的方式来迭代我的整个网址列表中的simil算法（不将它们全部相互比较）

我的提示是将simil算法与一些map / reduce结合起来。但我真的没有发现这种明显的方式。

有人做过这样的事吗？你的线索是什么？

我会感激任何帮助。 Ostro