Question

我有两个大的二维数组，我想找到它们的集合差异，将它们的行作为元素。在Matlab中，代码为setdiff(A,B,'rows')。数组足够大，以至于我能想到的显而易见的循环方法花费的时间太长了。

Answer 1

此应该有效，但由于正在创建的视图的mergesort不可用，因此目前在1.6.1中已中断。它适用于1.7.0之前的版本。这应该是最快的方法，因为视图不必复制任何内存：

>>> import numpy as np
>>> a1 = np.array([[1,2,3],[4,5,6],[7,8,9]])
>>> a2 = np.array([[4,5,6],[7,8,9],[1,1,1]])
>>> a1_rows = a1.view([('', a1.dtype)] * a1.shape[1])
>>> a2_rows = a2.view([('', a2.dtype)] * a2.shape[1])
>>> np.setdiff1d(a1_rows, a2_rows).view(a1.dtype).reshape(-1, a1.shape[1])
array([[1, 2, 3]])

你可以在Python中做到这一点，但它可能很慢：

>>> import numpy as np
>>> a1 = np.array([[1,2,3],[4,5,6],[7,8,9]])
>>> a2 = np.array([[4,5,6],[7,8,9],[1,1,1]])
>>> a1_rows = set(map(tuple, a1))
>>> a2_rows = set(map(tuple, a2))
>>> a1_rows.difference(a2_rows)
set([(1, 2, 3)])

Answer 2

这是一个很好的替代纯numpy解决方案，适用于1.6.1。它确实创建了一个中间数组，因此这对您来说可能是也可能不是问题。它也不依赖于排序数组的任何加速（如setdiff可能的那样）。

from numpy import *
# Create some sample arrays
A =random.randint(0,5,(10,3))
B =random.randint(0,5,(10,3))

作为一个例子，这就是我所得到的 - 请注意，有一个共同的元素：

>>> A
array([[1, 0, 3],
       [0, 4, 2],
       [0, 3, 4],
       [4, 4, 2],
       [2, 0, 2],
       [4, 0, 0],
       [3, 2, 2],
       [4, 2, 3],
       [0, 2, 1],
       [2, 0, 2]])
>>> B
array([[4, 1, 3],
       [4, 3, 0],
       [0, 3, 3],
       [3, 0, 3],
       [3, 4, 0],
       [3, 2, 3],
       [3, 1, 2],
       [4, 1, 2],
       [0, 4, 2],
       [0, 0, 3]])

我们寻找行之间的（L1）距离为零。这给了我们一个矩阵，在它为零的点上，这些是两个列表共有的项目：

idx = where(abs((A[:,newaxis,:] - B)).sum(axis=2)==0)

作为支票：

>>> A[idx[0]]
array([[0, 4, 2]])
>>> B[idx[1]]
array([[0, 4, 2]])

Answer 3

我不确定你的目的是什么，但这会得到一个布尔数组，其中2个数组不相等，并且会快速numpy：


import numpy as np
a = np.random.randn(5, 5)
b = np.random.randn(5, 5)
a[0,0] = 10.0
b[0,0] = 10.0 
a[1,1] = 5.0
b[1,1] = 5.0
c = ~(a-b==0)
print c

[[False  True  True  True  True]
 [ True False  True  True  True]
 [ True  True  True  True  True]
 [ True  True  True  True  True]
 [ True  True  True  True  True]]

在Python中查找两个大型数组（矩阵）之间的集合差异

3 个答案: