我指的是sub hadoop尺寸数据,但比ram大。
这些必须手工编码吗?
答案 0 :(得分:0)
我会尝试pytables,它基于HDF5和numpy,所以你可以在Python中使用相同的优秀统计软件包,这些软件包主要以某种方式基于numpy,而不必将所有东西都放在内存中
http://www.pytables.org/moin/MainFeatures
* Unlimited datasets size
Allows working with tables and/or arrays with a very large number of rows (up to 2**63), i.e. that don't fit in memory.