找到numpy数组中的唯一点

时间:2011-11-03 02:44:41

标签: python numpy

在numpy数组中找到唯一的x,y点(删除重复项)的更快捷的方法是:

points = numpy.random.randint(0, 5, (10,2))

我想过将点转换为复数然后检查唯一,但这似乎相当复杂:

b = numpy.unique(points[:,0] + 1j * points[:,1])
points = numpy.column_stack((b.real, b.imag))

2 个答案:

答案 0 :(得分:8)

我会这样做:

numpy.array(list(set(tuple(p) for p in points)))

对于最常见情况下的快速解决方案,也许这个方法会让您感兴趣: http://code.activestate.com/recipes/52560-remove-duplicates-from-a-sequence/

答案 1 :(得分:7)

我认为你在这里有个好主意。想想用于表示points中数据的底层内存块。我们告诉numpy将该块视为表示具有dtype int32(32位整数)的形状数组(10,2),但是告诉numpy将相同的内存块视为表示形状(10,)的数组,其中dtype为c8(64位复数)。

因此,唯一的实际费用是调用np.unique,然后是对viewreshape的另一个几乎无成本的调用:

import numpy as np
np.random.seed(1)
points = np.random.randint(0, 5, (10,2))
print(points)
print(len(points))

产量

[[3 4]
 [0 1]
 [3 0]
 [0 1]
 [4 4]
 [1 2]
 [4 2]
 [4 3]
 [4 2]
 [4 2]]
10

,而

cpoints = points.view('c8')
cpoints = np.unique(cpoints)
points = cpoints.view('i4').reshape((-1,2))
print(points)
print(len(points))

产量

[[0 1]
 [1 2]
 [3 0]
 [3 4]
 [4 2]
 [4 3]
 [4 4]]
7

如果您不需要对结果进行排序,那么wim的方法会更快(您可能需要考虑接受他的答案......)

import numpy as np
np.random.seed(1)
N=10000
points = np.random.randint(0, 5, (N,2))

def using_unique():
    cpoints = points.view('c8')
    cpoints = np.unique(cpoints)
    return cpoints.view('i4').reshape((-1,2))

def using_set():
    return np.vstack([np.array(u) for u in set([tuple(p) for p in points])])

产生这些基准:

% python -mtimeit -s'import test' 'test.using_set()'
100 loops, best of 3: 18.3 msec per loop
% python -mtimeit -s'import test' 'test.using_unique()'
10 loops, best of 3: 40.6 msec per loop