如果我有一个numpy.ndarray
,即300点(现在为1 x 300),并且我想每30点选择10点,我该怎么做?
换句话说:我想要前10点,然后跳过20,然后再抓10,然后再跳过10 ...,直到数组结束。
答案 0 :(得分:4)
要从10
个元素的每个块中选择30
个元素,我们可以简单地整形为2D
并从每一行中切出前10
列-
a.reshape(-1,30)[:,:10]
好处是输出将是对输入的视图,因此实际上是免费的,没有任何额外的内存开销。让我们运行一个示例来展示和证明这些-
In [43]: np.random.seed(0)
In [44]: a = np.random.randint(0,9,(1,300))
In [48]: np.shares_memory(a,a.reshape(10,30)[0,:,:10])
Out[48]: True
如果您需要拼合的版本,请使用.ravel()
-
a.reshape(-1,30)[:,:10].ravel()
时间-
In [38]: a = np.random.randint(0,9,(300))
# @sacul's soln
In [39]: %%timeit
...: msk = [True] * 10 + [False] * 20
...: out = a[np.tile(msk, len(a)//len(msk))]
100000 loops, best of 3: 7.6 µs per loop
# From this post
In [40]: %timeit a.reshape(-1,30)[:,:10].ravel()
1000000 loops, best of 3: 1.07 µs per loop
In [41]: a = np.random.randint(0,9,(3000000))
# @sacul's soln
In [42]: %%timeit
...: msk = [True] * 10 + [False] * 20
...: out = a[np.tile(msk, len(a)//len(msk))]
100 loops, best of 3: 3.66 ms per loop
# From this post
In [43]: %timeit a.reshape(-1,30)[:,:10].ravel()
100 loops, best of 3: 2.32 ms per loop
# If you are okay with `2D` output, it is virtually free
In [44]: %timeit a.reshape(-1,30)[:,:10]
1000000 loops, best of 3: 519 ns per loop
1D
数组的通用案例A。元素数量是块长度的倍数
对于元素数量为1D
倍数的a
数组n
数组,从m
个元素的每个块中选择n
个元素,并获得1D
数组输出,我们将有:
a.reshape(-1,n)[:,:m].ravel()
请注意,ravel()
展平部分在那里复制。因此,如有可能,请保留未展平的2D
版本以提高内存效率。
样品运行-
In [59]: m,n = 2,5
In [60]: N = 25
In [61]: a = np.random.randint(0,9,(N))
In [62]: a
Out[62]:
array([5, 0, 3, 3, 7, 3, 5, 2, 4, 7, 6, 8, 8, 1, 6, 7, 7, 8, 1, 5, 8, 4,
3, 0, 3])
# Select 2 elements off each block of 5 elements
In [63]: a.reshape(-1,n)[:,:m].ravel()
Out[63]: array([5, 0, 3, 5, 6, 8, 7, 7, 8, 4])
B。通用编号的元素
我们将利用受np.lib.stride_tricks.as_strided
启发的this post
从m
元素的每个块中选择n
个元素-
def skipped_view(a, m, n):
s = a.strides[0]
strided = np.lib.stride_tricks.as_strided
shp = ((a.size+n-1)//n,n)
return strided(a,shape=shp,strides=(n*s,s), writeable=False)[:,:m]
def slice_m_everyn(a, m, n):
a_slice2D = skipped_view(a,m,n)
extra = min(m,len(a)-n*(len(a)//n))
L = m*(len(a)//n) + extra
return a_slice2D.ravel()[:L]
请注意,skipped_view
使我们可以查看输入数组以及可能未分配给输入数组的内存区域的视图,但是此后,我们将进行展平和切片以将其限制为所需的输出,这就是一个副本。
样品运行-
In [170]: np.random.seed(0)
...: a = np.random.randint(0,9,(16))
In [171]: a
Out[171]: array([5, 0, 3, 3, 7, 3, 5, 2, 4, 7, 6, 8, 8, 1, 6, 7])
# Select 2 elements off each block of 5 elements
In [172]: slice_m_everyn(a, m=2, n=5)
Out[172]: array([5, 0, 3, 5, 6, 8, 7])
In [173]: np.random.seed(0)
...: a = np.random.randint(0,9,(19))
In [174]: a
Out[174]: array([5, 0, 3, 3, 7, 3, 5, 2, 4, 7, 6, 8, 8, 1, 6, 7, 7, 8, 1])
# Select 2 elements off each block of 5 elements
In [175]: slice_m_everyn(a, m=2, n=5)
Out[175]: array([5, 0, 3, 5, 6, 8, 7, 7])
答案 1 :(得分:2)
您可以创建一个遮罩并通过该遮罩建立索引,重复进行直到其达到数组的长度为止:
msk = [True] * 10 + [False] * 20
arr[np.tile(msk, len(arr)//len(msk))]
最小示例:
在30个值的数组中,选择1个元素,然后跳过2个元素:
>>> arr
array([6, 7, 2, 7, 1, 9, 1, 4, 4, 8, 6, 5, 2, 6, 3, 6, 8, 5, 6, 7, 2, 1, 9,
6, 7, 2, 1, 8, 2, 2])
msk = [True] * 1 + [False] * 2
>>> arr[np.tile(msk, len(arr)//len(msk))]
array([6, 7, 1, 8, 2, 6, 6, 1, 7, 8])
说明:
msk
是一个布尔型掩码
>>> msk
[True, False, False]
然后可以使用np.tile
重复该掩码,直到其长度与原始数组相同(即数组的长度除以掩码的长度):< / p>
>>> np.tile(msk, len(arr)//len(msk))
array([ True, False, False, True, False, False, True, False, False,
True, False, False, True, False, False, True, False, False,
True, False, False, True, False, False, True, False, False,
True, False, False], dtype=bool)
这是一个简单的由布尔值建立索引的问题,numpy
擅长于此
答案 2 :(得分:0)
IIUC
<element class="class foo bar" id="id" attribute="value"></element>
然后切片
get = 10
skip = 20
k = [item for z in [np.arange(get) + idx for idx in np.arange(0, x.size, skip+get)] for item in z]
示例:
x[k]