Question

我有一个文件，每行包含空格分隔的数字。每行对应一个数字列表现在大约有300,000条这样的线（每条线平均包含大约100个数字）我想找到所有这些列表的相互交集，即第一个列表与所有其他列表相交，然后第二个列表与所有其他列表相交，依此类推。
我正在使用

set(a) & set(b)

其中a和b是列表，我在双循环中迭代但这花费了太多时间。例如：对于与所有其他列表相交的第一个列表，大约需要3分钟我怎样才能有效地做到这一点？（可能与其他语言/工具一起使用）

Answer 1

你应该在这里使用生成器表达式，它们进行惰性求值并节省大量内存：

In [46]: from itertools import imap

In [47]: a = [[1,2,3], [2,3,4], [3,4,5]]

In [48]: reduce(set.intersection,imap(set,a))
Out[48]: set([3])

考虑到你的文件如下：

1 2 3
2 3 4
3 4 5

代码：使用itertools.combinations()：

with open("abc.txt") as f:
    lines=(map(int,x.split()) for x in f)
    for x in combinations(lines,2):
        print x,'-->',reduce(set.intersection,imap(set,x))
   ....:         
([1, 2, 3], [2, 3, 4]) --> set([2, 3])
([1, 2, 3], [3, 4, 5]) --> set([3])
([2, 3, 4], [3, 4, 5]) --> set([3, 4])

Answer 2

首先想到的是首先构建所有集合一次，如果它们都适合内存，则将它们相交。

如果你确实需要300000行的所有交叉点和300000行，那么无论如何都需要时间。也许你应该重新考虑你的问题。

Answer 3

我认为您可以通过创建倒排索引来优化这一点，即映射数=>包含此数字的行列表。例如，如果{5}在第5,100,200行出现10，那么您将拥有

10: [5, 100, 200]

要进一步优化此功能，您可以将行列表存储为一组对：

10: set( (5,100), (5,200), (100,200) )

然后，要计算list_a + list_b的交集，只需找到其关联行列表包含(list_a, list_b)的所有数字。

在python中查找大量列表的交集

3 个答案: