我计划将Pandas HDFStore用作核心csv操作的临时文件。
(csv - > HDFStore - >在熊猫中没有核心操作)。
只是想知道:
限制HDF5的尺寸,以便在1台机器上实际使用 (不是理论上的......)
数据透视表的操作成本(100列,固定VARCHAR,数字)。
我是否需要切换到Postgres(将csv加载到Postgres)和DB内容......
尝试在谷歌上找到一些基准限制大小与HDF5的计算时间,但找不到任何。
csv的总大小约为500Go - 1To(未压缩)。