如果你有n个列表,找到哪些字符串列表相似的最有效方法是什么?

时间:2017-01-14 14:41:24

标签: list comparison overlap

假设我有10个无序列表,每个列表包含100个字符串元素。什么是找到哪些列表与另一个列表或列表具有高度重叠(例如50%+)以及哪些列表重叠的最快方法?

如果我们将每个10,000字符串的无序列表扩展到1,000,000,000个怎么办?识别这些列表的最有效方法是什么?

2 个答案:

答案 0 :(得分:0)

这是一个缓慢的操作。 您将从所有列表中创建一个Set。 然后将一个与其他所有人进行比较,在哈希表或其他内容中保持一定的分数, 然后继续下一步再做一次。 它非常慢并且不能很好地扩展,但是根据您正在寻找的域,可能存在专门针对该操作定制的算法(和数据结构)。 例如模糊搜索和字符串匹配。 你的问题太宽泛了。具体是你试图做什么?

答案 1 :(得分:0)

如果你想找到两份文件之间的相似之处,你应该看看TfidVectorize。您能为我们提供一些样品清单或文件以及所需的输出。