如何在Python中确定H2O帧的字节大小?

时间:2017-03-27 13:42:49

标签: python h2o

我正在将Spark数据帧加载到H2O(使用Python)中以构建机器学习模型。我建议我应该分配一个H2O集群,其RAM为2-4x,与我将要训练的帧一样大,这样分析就可以很好地适应内存。但我不知道如何精确估算H2O框架的大小。

假设我已经将一个H2O框架加载到Python中,我如何实际确定其大小(以字节为单位)? 10-20%的近似值很好。

2 个答案:

答案 0 :(得分:2)

这将显示H2O键值存储中的基础表示的摘要,包括完整的字节大小:

frame.describe(chunk_summary=True)

答案 1 :(得分:0)

这指的是磁盘上文件大小的2-4倍,因此不要查看Python中的内存,而是查看原始文件大小。此外,2-4x建议因算法而异(GLM& DL将比基于树的模型需要更少的内存)。