多个文件或单个文件到HDFStore

时间:2014-09-01 08:54:05

标签: python pandas hdfstore

我正在将100个csv文件转换为数据帧并将其存储在HDFStore中。

的优点和缺点是什么?

a - 将csv文件存储为100个不同的HDFStore文件?

b - 将所有csv文件作为单独的项存储在一个HDFStore中?

除了性能问题,我问的问题是因为我遇到了稳定性问题而且我的HDFStore文件经常被破坏。因此,对我来说,单个HDFStore存在风险。但是,我想知道单一商店是否有好处。

1 个答案:

答案 0 :(得分:1)

这些是差异:

多个文件

  1. 使用多个文件时,您只能在写入时损坏单个文件(例如,写入时出现电源故障)
  2. 你可以将写作与多个文件并行化(注意 - 永远不要尝试与单个文件并行化,否则会破坏它!)
  3. 单个文件

    1. 如果逻辑集分组
    2. 恕我直言,多个文件的优势超过使用单个文件,因为您可以使用子目录轻松复制分组属性