不同行大小的numpy填充矩阵

时间:2016-06-07 10:15:51

标签: python arrays numpy padding rows

我有一个不同行大小的numpy数组

a = np.array([[1,2,3,4,5],[1,2,3],[1]])

我想把它变成一个密集的(固定的n x m大小,没有可变行)矩阵。到现在为止,我试过这样的事情

size = (len(a),5)    
result = np.zeros(size)
result[[0],[len(a[0])]]=a[0]

但我收到错误告诉我

  

形状不匹配:无法广播形状(5,)的值数组   形状的索引结果(1,)

我也尝试用np.pad做填充,但是根据numpy.pad的文档,似乎我需要在pad_width中指定行的先前大小(这是变量并且让我错误地尝试 - 1,0,最大行数。)

我知道我可以在每行填充填充列表,因为它显示here,但我需要使用更大的数据阵列来做这件事。

如果有人能帮助我解答这个问题,我很高兴知道这个问题。

2 个答案:

答案 0 :(得分:3)

实际上没有办法填充jagged array以使其松散其锯齿状,而不必遍历数组的行。你将不得不迭代两次数组:一次找出你需要填充的最大长度,另一次是实际填充。

您链接到的代码提案将完成工作,但效率不高,因为它在python for循环中添加零,迭代行的元素,而附加可能是预先计算的,从而将更多的代码推送到C。

下面的代码预先计算了所需最小尺寸的数组,用零填充,然后简单地将锯齿状数据M中的行添加到位,效率更高。

import random
import numpy as np
M = [[random.random() for n in range(random.randint(0,m))] for m in range(10000)] # play-data

def pad_to_dense(M):
    """Appends the minimal required amount of zeroes at the end of each 
     array in the jagged array `M`, such that `M` looses its jagedness."""

    maxlen = max(len(r) for r in M)

    Z = np.zeros((len(M), maxlen))
    for enu, row in enumerate(M):
        Z[enu, :len(row)] += row 
    return Z

为您提供一些速度的想法:

from timeit import timeit
n = [10, 100, 1000, 10000]
s = [timeit(stmt='Z = pad_to_dense(M)', setup='from __main__ import pad_to_dense; import numpy as np; from random import random, randint; M = [[random() for n in range(randint(0,m))] for m in range({})]'.format(ni), number=1) for ni in n]
print('\n'.join(map(str,s)))
# 7.838103920221329e-05
# 0.0005027339793741703
# 0.01208890089765191
# 0.8269036808051169

如果你想在数组之前添加零,而不是追加,这对代码来说是一个很简单的改变,我将留给你。

答案 1 :(得分:0)

您可以使用numpy.pad做类似的事情

import numpy as np
a = np.array([[1,2,3,4,5],[1,2,3],[1]])
l = np.array([len(a[i]) for i in range(len(a))])
width = l.max()
b=[]
for i in range(len(a)):
    if len(a[i]) != width:
        x = np.pad(a[i], (0,width-len(a[i])), 'constant',constant_values = 0)
    else:
        x = a[i]
    b.append(x)
b = np.array(b)
print(b)

上面的代码输出是这样的。

b = [[1, 2, 3, 4, 5],
     [1, 2, 3, 0, 0],
     [1, 0, 0, 0, 0]]

您可以通过执行以下操作来回读输入的数据版本

a = []
for i in range(len(b)):
    a.append(b[i][0:l[i]])
a = np.array(a)
print(a)

您将获得以下输出

a = array([array([1, 2, 3, 4, 5]), array([1, 2, 3]), array([1])], dtype=object)

希望这可以帮助像我一样努力解决问题的人。 谢谢。