我正在将Spark数据帧加载到H2O(使用Python)中以构建机器学习模型。我建议我应该分配一个H2O集群,其RAM为2-4x,与我将要训练的帧一样大,这样分析就可以很好地适应内存。但我不知道如何精确估算H2O框架的大小。
假设我已经将一个H2O框架加载到Python中,我如何实际确定其大小(以字节为单位)? 10-20%的近似值很好。
答案 0 :(得分:2)
这将显示H2O键值存储中的基础表示的摘要,包括完整的字节大小:
frame.describe(chunk_summary=True)
答案 1 :(得分:0)
这指的是磁盘上文件大小的2-4倍,因此不要查看Python中的内存,而是查看原始文件大小。此外,2-4x建议因算法而异(GLM& DL将比基于树的模型需要更少的内存)。