我正在尝试使用PyTables
和NumPy
。
你能告诉我后者能处理多少数据吗?
我目前正在处理1.4亿行的数据,并想知道NumPy
是否可以处理它。如果它至少可以处理1.4亿行的2列,那就太好了。现在我使用64位版本的Windows和8 GB的RAM。
如果NumPy
无法处理这么多数据,那么统计和机器学习算法实现的可能替代方案是什么?
答案 0 :(得分:3)
140M远低于2 ** 31,所以这应该适用于32位Python / Numpy,只要有足够的内存。您可以使用
轻松尝试>>> import numpy as np
>>> X = np.empty((140e6, 2))
标准dtype=np.float64
的内存使用大约为8字节×140M×2 = 2GB。如果您使用dtype=np.float32
,则可以保存因子2.