我们将数据存储为.npy文件。一个用于特征,另一个用于我们想要计算的所有目标(我们计划一次只选择一个目标列进行训练)。在h2o中看起来不支持.npy(http://docs.h2o.ai/h2o/latest-stable/h2o-docs/getting-data-into-h2o.html#supported-file-formats),但我想知道是否有直接导入.npy文件的解决方法,而不必将它们转换为.csv并且基本上不得不加倍我们的存储空间。
当我将.npy作为pandas数据帧上传时,我会在ncols = training_frame.ncols上收到错误,说DataFrame对象没有属性  ' ncols'。
答案 0 :(得分:1)
您需要转换它们(R用户的.rdata文件的类似情况)。 (如果支持这样的二进制文件会很好,所以你可以尝试一个功能请求。)
您不需要将存储空间加倍:您可以将每个npy文件加载到Python客户端,然后使用:
d = h2o.H2OFrame(my_npy)
(上次我检查了源代码,这实际上会保存到临时csv文件,然后导入该文件,然后删除临时文件。)
该步骤是否会为整体模型培训增加任何重要时间取决于数据的大小,是否为多节点群集,以及您的客户端是否位于群集或世界的其他方面。但是,对于非平凡的模型,训练时间总是至少比加载数据多一个数量级,因此不值得花太多精力来加速它。