连接两个大熊猫.HDFStore HDF5文件

时间:2015-03-07 19:08:47

标签: python pandas hdf5 pytables

这个问题与"Concatenate a large number of HDF5 files"有某种关系。

我有几个巨大的HDF5文件(约20GB压缩),无法容纳RAM。它们中的每一个都存储了几个相同格式的pandas.DataFrame和不重叠的索引。

我想将它们连接成一个HDF5文件,所有DataFrame都正确连接。一种方法是逐个块地读取它们,然后保存到单个文件中,但实际上它需要花费很多时间。

是否有任何特殊工具或方法可以在不重复文件的情况下执行此操作?

1 个答案:

答案 0 :(得分:12)

查看odo项目(以前为into)的文档here。请注意,如果您使用into库,那么参数顺序已被切换(这是更改名称的动机,以避免混淆!)

你基本上可以这样做:

from odo import odo
odo('hdfstore://path_store_1::table_name',
    'hdfstore://path_store_new_name::table_name')

执行这样的多个操作将附加到rhs商店。

这将自动为您执行块操作。