numpy:如何快速替换矩阵中的相等值?

时间:2019-06-04 07:38:20

标签: python arrays numpy indexing

假设我们有一个等级2数组a,其中有n个条目,其中{0,1,2,...,m}中包含整数值。现在,对于这些整数中的每一个,我想找到具有该值的a条目的索引(在以下示例中称为index_i, index_j)。 (所以我要寻找的是np.unique(...,return_index=True),但是对于2d数组,并且有可能返回每个唯一值的 all 索引。)

一种幼稚的方法将涉及使用布尔索引,这将导致O(m*n)个操作(请参阅下文),但是我只想进行O(n)个操作。当我找到解决方案时,我觉得应该有一个内置方法或至少可以简化这种方法-或至少可以消除这些难看的循环:

import numpy as np
a = np.array([[0,0,1],[0,2,1],[2,2,1]])
m = a.max()


#"naive" in O(n*m)
i,j = np.mgrid[range(a.shape[0]), range(a.shape[1])]
index_i = [[] for _ in range(m+1)]
index_j = [[] for _ in range(m+1)]
for k in range(m+1):
  index_i[k] = i[a==k]
  index_j[k] = j[a==k]

#all the zeros:
print(a[index_i[0], index_j[0]])
#all the ones:
print(a[index_i[1], index_j[1]])
#all the twos:
print(a[index_i[2], index_j[2]])


#"sophisticated" in O(n)

index_i = [[] for _ in range(m+1)]
index_j = [[] for _ in range(m+1)]
for i in range(a.shape[0]):
  for j in range(a.shape[1]):
    index_i[a[i,j]].append(i)
    index_j[a[i,j]].append(j)

#all the zeros:
print(a[index_i[0], index_j[0]])
#all the ones:
print(a[index_i[1], index_j[1]])
#all the twos:
print(a[index_i[2], index_j[2]])

Try it online!

(请注意,稍后我将需要这些索引来进行写访问,即替换数组中存储的值。但是在这些操作之间,我确实需要2d结构。)

1 个答案:

答案 0 :(得分:2)

这里是一个基于sorting的代码,目的是在迭代保存为字典时需要花费最少的工作,该字典的键是唯一元素,而值是索引-

shp = a.shape
idx = a.ravel().argsort()
idx_sorted = np.c_[np.unravel_index(idx,shp)]
count = np.bincount(a.ravel())
valid_idx = np.flatnonzero(count!=0)
cs = np.r_[0,count[valid_idx].cumsum()]
out = {e:idx_sorted[i:j] for (e,i,j) in zip(valid_idx,cs[:-1],cs[1:])}

样本输入,输出-

In [155]: a
Out[155]: 
array([[0, 2, 6],
       [0, 2, 6],
       [2, 2, 1]])

In [156]: out
Out[156]: 
{0: array([[0, 0],
        [1, 0]]), 1: array([[2, 2]]), 2: array([[0, 1],
        [1, 1],
        [2, 0],
        [2, 1]]), 6: array([[0, 2],
        [1, 2]])}

如果序列中的所有整数都覆盖在数组中,我们可以稍微简化一下-

shp = a.shape
idx = a.ravel().argsort()
idx_sorted = np.c_[np.unravel_index(idx,shp)]
cs = np.r_[0,np.bincount(a.ravel()).cumsum()]
out = {iterID:idx_sorted[i:j] for iterID,(i,j) in enumerate(zip(cs[:-1],cs[1:]))}