如何将HDF文件(固定格式,多个键)作为熊猫数据框使用?

时间:2020-06-13 15:08:12

标签: python pandas hdf5 hdf

我得到了一个使用熊猫创建的20GB HDF5文件,但不幸的是,它以固定格式(而不是表格)编写,每一列都被编写为单独的键。这对于快速加载一项功能非常有效,但不允许进行方便的面向表格的过程(例如统计分析或绘图)。

尝试整体加载文件会出现以下错误:

ValueError: key must be provided when HDF5 file contains multiple datasets

f=pd.read_hdf('file_path')

ValueError                             Traceback (most recent call last)

384             for group_to_check in groups[1:]:
385                 if not _is_metadata_of(group_to_check, candidate_only_group):

--> 386                     raise ValueError('key must be provided when HDF5 file '
    387                                      'contains multiple datasets.')
    388             key = candidate_only_group._v_pathname

ValueError: key must be provided when HDF5 file contains multiple datasets.

不幸的是,'key'不接受python列表,因此我不能简单地一次全部加载。有没有办法将h5文件从“固定”转换为“表”?还是一次性将文件加载到数据框?目前,我的解决方案是分别加载每列并附加到一个空的数据框。

1 个答案:

答案 0 :(得分:0)

我不知道以其他方式逐列加载df的其他方法,但是您可以使用HDFStore而不是read_hdf来实现此自动化:

with pd.HDFStore(filename) as h5:
    df = pd.concat(map(h5.get, h5.keys()), axis=1)

示例:

#save df as multiple datasets
df = pd.DataFrame({'a': [1,2], 'b': [10,20]})
df.a.to_hdf('/tmp/df.h5', 'a', mode='w', format='fixed')
df.b.to_hdf('/tmp/df.h5', 'b', mode='a', format='fixed')

#read columns and concat to dataframe    
with pd.HDFStore('/tmp/df.h5') as h5:
    df1 = pd.concat(map(h5.get, h5.keys()), axis=1)

#verify
assert all(df1 == df)