如何在HDF5中制作多dims数据集?

时间:2017-10-13 07:55:25

标签: python numpy hdf5 h5py

例如,我想创建两个数据集,一个是Input,另一个是Output

InputOutput中的数据是多次调整的。

,例如

enter image description here

但我注意到h5pyinput_nodeoutput_node已修复。

Input =  f.create_dataset('Input',  (3,input_node ),dtype='float', chunks=True)
Output = f.create_dataset('Output', (3,output_node),dtype='float', chunks=True)

但是hdf5无法解决此问题,此代码可以证明这一点

import h5py

X = [[1,2,3,4],[1,2],[1,2,3,4,5,6]]

with h5py.File('myfile.hdf5', "w") as ofile:
    ofile.create_dataset("X", data=X)
  

TypeError:对象dtype dtype(' O')没有等效的原生HDF5

那么如何在h5py中创建一个多dims数据集?

1 个答案:

答案 0 :(得分:0)

我并不完全遵循{...}表示的内容。在Python中,它们用于字典和集合。 []用于列表,()用于元组。数组形状表示为元组。

无论如何,你的代码产生了

In [68]: X
Out[68]: 
array([ list([0.6503719194043309, 0.8703218883225239, -1.4139639093161405, 2.3288987644271835, -1.7957516518177206]),
       list([-0.1781710442823114, 0.9591992379396287, -0.6319292685053243]),
       list([0.7104492662861611, -0.8951817329357393, -0.8925882332063567, 1.5587934871464815]),
       list([-1.2384976614455354, 0.9044140291496179, 1.1277220227448401]),
       list([1.1386910680393805, -0.1775792543137636, 1.0567836199711476]),
       list([2.7535019220459707, 0.29518918092088386, -0.32166742909305196, 1.5269788560083497, 0.29633276686886767]),
       list([1.6397535315116918, -0.8839570613086122, -0.4491121599234047, -2.4461439611764333, -0.6884616200199412, -1.1920165045444608]),
       list([1.3240629024597295, 1.170019287452736, 0.5999977019629572, -0.38338543090263366, 0.6030856099472732]),
       list([-0.013529997305716175, -0.7093551284624415, -1.8611980839518099, 0.9165791506693297]),
       list([2.384081118320432, -0.6158201308053464, 0.8802896893269192, -0.7636283160361232])], dtype=object)
In [69]: y
Out[69]: array([1, 1, 0, 0, 0, 1, 1, 0, 1, 0])

y是一个简单的数组。 h5py保存它应该没有问题。

X是一个对象dtype数组,包含不同大小的列表

In [72]: [len(l) for l in X]
Out[72]: [5, 3, 4, 3, 3, 5, 6, 5, 4, 4]

h5py无法保存那种数组。最多可以将每个元素写入不同的dataset。它将每个保存为数组。

....
   for i, item in enumerate(X):
      ofile.create_dataset('name%s'%i, data=item)