在h5py中使用相同的复合数据值填充数据集的快速方法

时间:2013-06-24 19:33:01

标签: numpy hdf5 h5py

我在hdf文件中有一个大型复合数据数据集。复合数据的类型如下所示:

    numpy.dtype([('Image', h5py.special_dtype(ref=h5py.Reference)), 
                 ('NextLevel', h5py.special_dtype(ref=h5py.Reference))])

通过这种方式,我创建了一个数据集,其中包含对图像的引用以及每个位置的另一个数据集。 这些数据集的尺寸为n×n,n通常至少为256,但更可能> 2000。 我必须首先使用相同的值填充这些数据集的每个位置:

    [[(image.ref, dataset.ref)...(image.ref, dataset.ref)],
      .
      .
      .
     [(image.ref, dataset.ref)...(image.ref, dataset.ref)]]

我尽量避免用两个for循环来填充它,如:

    for i in xrange(0,n):
      for j in xrange(0,n):
         daset[i,j] =(image.ref, dataset.ref)

因为表现非常糟糕。 所以我正在搜索numpy.fillnumpy.shapenumpy.reshapenumpy.arraynumpy.arrange[:]等内容。我以各种方式尝试了这些函数,但它们似乎只适用于数字和字符串数据类型。 有没有办法以比for循环更快的方式填充这些数据集?

提前谢谢。

1 个答案:

答案 0 :(得分:0)

您可以使用numpy broadcastingnumpy.repeatnumpy.reshape的组合:

my_dtype = numpy.dtype([('Image', h5py.special_dtype(ref=h5py.Reference)), 
             ('NextLevel', h5py.special_dtype(ref=h5py.Reference))])
ref_array = array( (image.ref, dataset.ref), dtype=my_dtype)
dataset = numpy.repeat(ref_array, n*n)
dataset = dataset.reshape( (n,n) )

请注意numpy.repeat返回一个展平数组,因此使用numpy.reshape。似乎repeat比播放它更快:

%timeit empty_dataset=np.empty(2*2,dtype=my_dtype); empty_dataset[:]=ref_array
100000 loops, best of 3: 9.09 us per loop

%timeit repeat_dataset=np.repeat(ref_array, 2*2).reshape((2,2))
100000 loops, best of 3: 5.92 us per loop