使用Pandas + PyTables管理和处理数据集的设计策略

时间:2012-09-14 17:28:29

标签: dataset pandas pytables

作为numpy的常规用户,我爱上了Pandas的语法和概念,并开始阅读PyTables,它看起来非常强大且以性能为导向。

我的主要疑虑是:

  • 如果我使用由Pandas + PyTables组成的自制框架,那么应该将哪一层数据处理管道(数据导入,转换,分析,存储,检索)委托给每一个?
  • Pandas的天赋是什么,以及它与PyTables的天赋有何关系,以及他们的天赋如何相关?
  • 他们是正交/互补/独立,还是以某种方式重叠功能?
  • 他们如何相互区别?

感谢任何光明!

1 个答案:

答案 0 :(得分:2)

大熊猫和小圆桌之间并没有太多的重叠,但它们是彼此非常好的赞美。 PyTables是关于存储和检索的,而pandas是关于在检索之后和​​存储之前处理数据。 Pandas有方便的PyTables接口(查看pandas.io.pytables.HDFStore),因此您可以使用pytables轻松存储pandas Series / DataFrame。