按值从多维numpy数组中删除元素

时间:2016-11-27 23:21:37

标签: python numpy

给定一个numpy数组

a = np.array([[0, -1, 0], [1, 0, 0], [1, 0, -1]])

删除值-1的所有元素以获取表单数组的最快方法是什么

np.array([[0, 0], [1, 0, 0], [1, 0]])

5 个答案:

答案 0 :(得分:4)

您可以考虑的另一种方法:

def iterative_numpy(a):
    mask = a != 1
    out = np.array([ a[i,mask[i]] for i xrange(a.shape[0]) ])
    return out

Divakar的方法loop_compr_based计算沿着掩码行的总和以及该结果的累积总和。此方法避免了此类摘要,但仍需要遍历a行。它还返回一个数组数组。这有一个烦恼,out必须使用语法out[1][2]而非out[1,2]编入索引。将时间与矩阵随机整数矩阵进行比较:

In [4]: a = np.random.random_integers(-1,1, size = (3,30))

In [5]: %timeit iterative_numpy(a)
100000 loops, best of 3: 11.1 us per loop

In [6]: %timeit loop_compr_based(a)
10000 loops, best of 3: 20.2 us per loop

In [7]: a = np.random.random_integers(-1,1, size = (30,3))

In [8]: %timeit iterative_numpy(a)
10000 loops, best of 3: 59.5 us per loop

In [9]: %timeit loop_compr_based(a)
10000 loops, best of 3: 30.8 us per loop

In [10]: a = np.random.random_integers(-1,1, size = (30,30))

In [11]: %timeit iterative_numpy(a)
10000 loops, best of 3: 64.6 us per loop

In [12]: %timeit loop_compr_based(a)
10000 loops, best of 3: 36 us per loop

当列数多于行数时,iterative_numpy会胜出。当行数多于列数时,loop_compr_based会获胜,但首先转置a会提高两种方法的效果。当尺寸相同时,loop_compr_based最好。

重要的侧面讨论

在实现之外,重要的是要注意任何具有不均匀形状的numpy数组实际数组,因为值不会占用连续值内存部分,通常的数组操作将无法按预期工作。

举个例子:

>>> a = np.array([[1,2,3],[1,2],[1]])
>>> a*2
array([[1, 2, 3, 1, 2, 3], [1, 2, 1, 2], [1, 1]], dtype=object)

请注意,numpy实际上告诉我们这不是通常的带有注释dtype=object的numpy数组。

因此,最好只生成numpy数组的列表并相应地使用它们。

答案 1 :(得分:2)

方法#1:使用NumPy拆分数组 -

def split_based(a, val):
    mask = a!=val
    p = np.split(a[mask],mask.sum(1)[:-1].cumsum())
    out = np.array(list(map(list,p)))
    return out

方法#2:使用循环理解,但循环中的工作量最少 -

def loop_compr_based(a, val):
    mask = a!=val
    stop = mask.sum(1).cumsum()
    start = np.append(0,stop[:-1])
    am = a[mask].tolist()
    out = np.array([am[start[i]:stop[i]] for i  in range(len(start))])
    return out

示例运行 -

In [391]: a
Out[391]: 
array([[ 0, -1,  0],
       [ 1,  0,  0],
       [ 1,  0, -1],
       [-1, -1,  8],
       [ 3,  7,  2]])

In [392]: split_based(a, val=-1)
Out[392]: array([[0, 0], [1, 0, 0], [1, 0], [8], [3, 7, 2]], dtype=object)

In [393]: loop_compr_based(a, val=-1)
Out[393]: array([[0, 0], [1, 0, 0], [1, 0], [8], [3, 7, 2]], dtype=object)

运行时测试 -

In [387]: a = np.random.randint(-2,10,(1000,1000))

In [388]: %timeit split_based(a, val=-1)
10 loops, best of 3: 161 ms per loop

In [389]: %timeit loop_compr_based(a, val=-1)
10 loops, best of 3: 29 ms per loop

答案 2 :(得分:0)

使用indexes = np.where(a == -1)获取元素的索引 Find indices of elements equal to zero from numpy array

然后使用np.delete(your_array, indexes)按索引删除特定元素 How to remove specific elements in a numpy array

答案 3 :(得分:0)

这个怎么样?

print([[y for y in x if y > -1] for x in a])
[[0, 0], [1, 0, 0], [1, 0]]

答案 4 :(得分:0)

对于您可能想要对此类数组执行的所有操作,您可以使用masked array

a = np.array([[0, -1, 0], [1, 0, 0], [1, 0, -1]])

b=np.ma.masked_equal(a,-1)

b
Out[5]: 
masked_array(data =
 [[0 -- 0]
 [1 0 0]
 [1 0 --]],
             mask =
 [[False  True False]
 [False False False]
 [False False  True]],
       fill_value = -1)

如果你真的想要一个参差不齐的数组,它可以是.compressed()一行

c=np.array([b[i].compressed() for i in range(b.shape[0])])

c
Out[10]: array([array([0, 0]), array([1, 0, 0]), array([1, 0])], dtype=object)