我有一个由布尔值w
构成的巨大一维numpy数组和一个索引i
不断增加的列表,这些列表将w
分成len(i)+1
个子数组。一个玩具示例是:
w=numpy.array([True,False,False,False,True,True,True,True,False,False])
i=numpy.array([0,0,2,5,5,8,8])
我希望计算一个numpy数组wi
,如果第i
个子数组包含一个i
,则其第True
个条目为1,否则为0。换句话说,i
的第w
个条目是i
的第w
个子数组的元素的和(逻辑“或”)。在我们的示例中,输出为:
[0 0 1 1 0 1 0 0]
这是通过以下代码实现的:
wi=numpy.fromiter(map(numpy.any,numpy.split(w,i)),int)
是否有更有效的方法做到这一点?或者就内存而言,这是否是最佳选择?
P.S。 related post
答案 0 :(得分:2)
让我们尝试np.add.reductat
:
wi = np.add.reduceat(w,np.r_[0,i]).astype(bool)
输出:
array([1, 1, 0, 1, 0, 0])
性能:
%timeit -n 100 wi = np.add.reduceat(w,np.r_[0,i]).astype(bool).astype(int)
21.7 µs ± 7.86 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
%timeit -n 100 wi=np.fromiter(map(np.any,np.split(w,i)),int)
44.5 µs ± 7.79 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
因此,我们这里的速度约为2倍。
答案 1 :(得分:2)
为了提高效率(内存和性能),请使用np.bitwise_or.reduceat
,因为它将输出保持为布尔值-
In [10]: np.bitwise_or.reduceat(w,np.r_[0,i])
Out[10]: array([ True, True, False, True, False, False])
要具有int输出,请查看为int
-
In [11]: np.bitwise_or.reduceat(w,np.r_[0,i]).view('i1')
Out[11]: array([1, 1, 0, 1, 0, 0], dtype=int8)
这是全天候解决方案-
def slice_reduce_or(w, i):
valid = i<len(w)
invalidc =( ~valid).sum()
i = i[valid]
mi = np.r_[i[:-1]!=i[1:],True]
pp = i[mi]
p1 = np.bitwise_or.reduceat(w,pp)
N = len(i)+1
out = np.zeros(N+invalidc, dtype=bool)
out[1:N][mi] = p1
out[0] = w[:i[0]].any()
return out.view('i1')