我正在尝试使用Python / Pandas找到有效地在磁盘上写入大数据帧(250MB +)的最佳方法。我已经尝试了 Python for Data Analysis 中的所有方法,但性能非常令人失望。
这是一个大型项目的一部分,该项目旨在将我们当前的分析/数据管理环境从Stata迁移到Python。当我将测试中的读/写时间与Stata中的读/写时间进行比较时,Python和Pandas的使用时间通常超过20倍。
我强烈怀疑我是问题,而不是Python或Pandas。
有什么建议吗?
答案 0 :(得分:9)
使用HDFStore
是你最好的选择(书中没有详细介绍,并且已经发生了很大变化)。您会发现性能比任何其他序列化方法都要好。