许多用于熊猫的小数据表I / O?

时间:2016-10-12 12:25:23

标签: pandas io

我有很多表(大约200K)每个小(通常少于1K行和10列),我需要在熊猫中尽快读取。用例非常典型:一个函数一次加载一个表,计算它们并存储最终结果(不将表的内容保存在内存中)。

这已经完成了很多次,我可以选择这些表的存储格式以获得最佳(速度)性能。 什么natively supported存储格式最快?

1 个答案:

答案 0 :(得分:1)

IMO在这种情况下有几个选项:

  1. 使用HDF Store(AKA PyTable,H5)作为@jezrael has already suggested。您可以决定是否要对部分/全部表进行分组,并使用不同的标识符(或Pandas术语中的.h5)将它们存储在同一keys文件中

  2. 使用新的极速Feather-Format (part of the Apache Arrow project)。注意:它仍然是一种新格式,因此将来可能会更改其格式,这可能导致不同版本的羽毛格式模块之间不兼容。您也不能将多个DF放在一个feather文件中,因此您无法将它们分组。

  3. 使用数据库存储/读取表格。 PS它可能比你的用例慢。

  4. PS你可能还想检查this comparison,特别是如果你想以压缩格式存储你的数据