我正在寻找一个非常具体的领域的建议。 这是故事: 我正在研究我的node.js项目,以下是我想要添加到mt应用程序中的工具。 我有足够的URL(大约20,000),我想要做的是将类似的网址集中在一起。 如果两个网址相似,则应将它们重新组合到同一群集中。
我已经找到了一个有趣的算法:Simil,它提供了两个字符串之间相似度的百分比:http://www.accessmvp.com/tomvanstiphout/simil.htm
这里的问题是找到一种“干净”的方式来迭代我的整个网址列表中的simil算法(不将它们全部相互比较)
我的提示是将simil算法与一些map / reduce结合起来。但我真的没有发现这种明显的方式。
有人做过这样的事吗?你的线索是什么?
我会感激任何帮助。 Ostro