熊猫:同一个HDF中的大型数据帧?

时间:2016-07-22 07:42:35

标签: pandas hdf5 hdf

我有几个相关的不同数据框(如果需要,还有一些ID可以加入它们)。但是,我不会总是同时需要它们。

由于它们非常大,将它们存储在单独的HDF存储中是否有意义?或者是携带"未使用的"当我处理同一文件中的其他帧时,帧数可忽略不计?

2 个答案:

答案 0 :(得分:1)

理论上如果您可以根据IO子系统(不同的主轴,不同的存储系统等)分离您的HDF文件,您可以尝试并行读取您的DF,实际上我会测试它在您的硬件上使用您的数据等

分离文件的另一个优点 - 如果从包含多个DF的HDF存储中删除或显着减小巨大DF的大小 - 它的大小将保持不变。如果你有一个单独的文件,你可以简单地删除它并释放未使用的空间

答案 1 :(得分:0)

如果它们位于另一个文件或同一文件中,则携带未使用帧的成本是相同的。问问你自己是否更好地将这个sql表存储在另一个数据库或同一个数据库中。如果它们是相关的,请将它们保存在同一个商店中。