Question

我正在将Spark数据帧加载到H2O（使用Python）中以构建机器学习模型。我建议我应该分配一个H2O集群，其RAM为2-4x，与我将要训练的帧一样大，这样分析就可以很好地适应内存。但我不知道如何精确估算H2O框架的大小。

假设我已经将一个H2O框架加载到Python中，我如何实际确定其大小（以字节为单位）？ 10-20％的近似值很好。

Answer 1

这将显示H2O键值存储中的基础表示的摘要，包括完整的字节大小：

frame.describe(chunk_summary=True)

Answer 2

这指的是磁盘上文件大小的2-4倍，因此不要查看Python中的内存，而是查看原始文件大小。此外，2-4x建议因算法而异（GLM＆amp; DL将比基于树的模型需要更少的内存）。