标签: list comparison overlap
假设我有10个无序列表,每个列表包含100个字符串元素。什么是找到哪些列表与另一个列表或列表具有高度重叠(例如50%+)以及哪些列表重叠的最快方法?
如果我们将每个10,000字符串的无序列表扩展到1,000,000,000个怎么办?识别这些列表的最有效方法是什么?
答案 0 :(得分:0)
答案 1 :(得分:0)
如果你想找到两份文件之间的相似之处,你应该看看TfidVectorize。您能为我们提供一些样品清单或文件以及所需的输出。