Question

在Sparkling-water 2.2.9版中遇到以下问题。我的Hadoop集群正在运行CDH 5.13。根据H2o文档，我应该有大约4倍的内存作为H2o / Sparkling-water集群中的数据大小。

我可以将大小为750 GB的数据文件（CSV）导入到具有4 TB内存（40个执行器，每个100 GB）的闪烁水集群中。但是在加载更大的数据文件时遇到问题。这个（CSV）文件大小约为2.2 TB（也有Parquet / Snappy格式，550GB大小）。我创建了一个Sparkling-water集群，其中包含100个100GB执行程序的执行程序。 “解析”步骤运行大约60-70％，然后容器开始失败，错误代码为143和255.我已经将内存增加到大约12 TB，但仍然没有成功。

python代码是：

import h2o
h2o.init(ip='hdchdp01v03', port=9500, strict_version_check=False)
ls_hdfs="hdfs://HDCHDP01ns/h2o_test/csv_20171004"
print("Reading files from ", ls_hdfs)
sum_df = h2o.import_file(path = ls_hdfs, destination_frame="sum_df")

有没有人遇到过类似的问题？我的Hadoop集群只有20 TB的内存，所以在大多数情况下占用12 TB内存本身就是一个延伸。

使用我的第一个文件，我看到一旦将数据导入集群，它看起来大约是内存中文件大小的两倍，但不确定如何恢复我分配的4x内存，直到闪烁水集群到来下来。

那么，有没有其他的解决方法可以将这些数据加载到H2o进行分析，并对可用的集群内存进行一些尽职调查？

香卡

无法将2.3 TB文件加载到具有10 TB内存的闪烁水集群中

0 个答案: