在python中计算内存数据集的统计模型有哪些选择?

时间:2014-10-26 19:14:34

标签: python statistics

我指的是sub hadoop尺寸数据,但比ram大。

这些必须手工编码吗?

1 个答案:

答案 0 :(得分:0)

我会尝试pytables,它基于HDF5和numpy,所以你可以在Python中使用相同的优秀统计软件包,这些软件包主要以某种方式基于numpy,而不必将所有东西都放在内存中

http://www.pytables.org/moin/MainFeatures

* Unlimited datasets size
Allows working with tables and/or arrays with a very large number of rows (up to 2**63), i.e. that don't fit in memory.