有这个How do you split a list into evenly sized chunks? 用于将数组拆分为块。无论如何使用Numpy为巨型阵列更有效地做到这一点?
答案 0 :(得分:59)
来自文档:
>>> x = np.arange(8.0)
>>> np.array_split(x, 3)
[array([ 0., 1., 2.]), array([ 3., 4., 5.]), array([ 6., 7.])]
与numpy.split
相同,但如果组长度不相等则不会引发异常。
如果块的数量> len(数组)你得到嵌套在里面的空白数组,以解决这个问题 - 如果你的split数组保存在a
中,那么你可以删除空数组:
[x for x in a if x.size > 0]
如果愿意,只需将其保存回a
。
答案 1 :(得分:18)
关于array_split
,split
, hsplit
and vsplit
的使用的一些示例:
n [9]: a = np.random.randint(0,10,[4,4])
In [10]: a
Out[10]:
array([[2, 2, 7, 1],
[5, 0, 3, 1],
[2, 9, 8, 8],
[5, 7, 7, 6]])
使用array_split
的一些示例:
如果你给一个数组或列表作为第二个参数,你基本上给出了'cut'
# split rows into 0|1 2|3
In [4]: np.array_split(a, [1,3])
Out[4]:
[array([[2, 2, 7, 1]]),
array([[5, 0, 3, 1],
[2, 9, 8, 8]]),
array([[5, 7, 7, 6]])]
# split columns into 0| 1 2 3
In [5]: np.array_split(a, [1], axis=1)
Out[5]:
[array([[2],
[5],
[2],
[5]]),
array([[2, 7, 1],
[0, 3, 1],
[9, 8, 8],
[7, 7, 6]])]
一个整数作为第二个arg。指定相等块的数量:
In [6]: np.array_split(a, 2, axis=1)
Out[6]:
[array([[2, 2],
[5, 0],
[2, 9],
[5, 7]]),
array([[7, 1],
[3, 1],
[8, 8],
[7, 6]])]
split
的工作方式相同,但如果无法进行相等的拆分则会引发异常
除了array_split
,您还可以使用快捷方式vsplit
和hsplit
。
vsplit
和hsplit
几乎都是自我解释:
In [11]: np.vsplit(a, 2)
Out[11]:
[array([[2, 2, 7, 1],
[5, 0, 3, 1]]),
array([[2, 9, 8, 8],
[5, 7, 7, 6]])]
In [12]: np.hsplit(a, 2)
Out[12]:
[array([[2, 2],
[5, 0],
[2, 9],
[5, 7]]),
array([[7, 1],
[3, 1],
[8, 8],
[7, 6]])]
答案 2 :(得分:7)
如果部分数量不需要正确划分数组的大小,我相信您正在寻找numpy.split
或可能numpy.array_split
。
答案 3 :(得分:6)
不是一个很好的答案,而是对其他(正确)答案的代码格式很好的长评论。如果您尝试以下操作,您将看到您获得的是原始数组的视图,而不是副本,而您链接的问题中的接受答案不是这种情况。注意可能的副作用!
>>> x = np.arange(9.0)
>>> a,b,c = np.split(x, 3)
>>> a
array([ 0., 1., 2.])
>>> a[1] = 8
>>> a
array([ 0., 8., 2.])
>>> x
array([ 0., 8., 2., 3., 4., 5., 6., 7., 8.])
>>> def chunks(l, n):
... """ Yield successive n-sized chunks from l.
... """
... for i in xrange(0, len(l), n):
... yield l[i:i+n]
...
>>> l = range(9)
>>> a,b,c = chunks(l, 3)
>>> a
[0, 1, 2]
>>> a[1] = 8
>>> a
[0, 8, 2]
>>> l
[0, 1, 2, 3, 4, 5, 6, 7, 8]
答案 4 :(得分:0)
这个怎么样?在这里,您可以使用所需的长度拆分数组。
a = np.random.randint(0,10,[4,4])
a
Out[27]:
array([[1, 5, 8, 7],
[3, 2, 4, 0],
[7, 7, 6, 2],
[7, 4, 3, 0]])
a[0:2,:]
Out[28]:
array([[1, 5, 8, 7],
[3, 2, 4, 0]])
a[2:4,:]
Out[29]:
array([[7, 7, 6, 2],
[7, 4, 3, 0]])
答案 5 :(得分:0)
这可以使用 numpy.as_strided
来实现。我假设如果块大小不是总行数的一个因素,那么最后一批中的其余行将用零填充。
from numpy.lib.stride_tricks import as_strided
def batch_data(test, chunk_count):
m,n = test.shape
S = test.itemsize
if not chunk_count:
chunk_count = 1
batch_size = m//chunk_count
# Batches which can be covered fully
test_batches = as_strided(test, shape=(chunk_count, batch_size, n), strides=(batch_size*n*S,n*S,S)).copy()
covered = chunk_count*batch_size
if covered < m:
rest = test[covered:,:]
rm, rn = rest.shape
mismatch = batch_size - rm
last_batch = np.vstack((rest,np.zeros((mismatch,rn)))).reshape(1,-1,n)
return np.vstack((test_batches,last_batch))
return test_batches