无法将2.3 TB文件加载到具有10 TB内存的闪烁水集群中

时间:2018-03-28 15:17:58

标签: apache-spark hadoop pyspark h2o sparkling-water

在Sparkling-water 2.2.9版中遇到以下问题。我的Hadoop集群正在运行CDH 5.13。根据H2o文档,我应该有大约4倍的内存作为H2o / Sparkling-water集群中的数据大小。

我可以将大小为750 GB的数据文件(CSV)导入到具有4 TB内存(40个执行器,每个100 GB)的闪烁水集群中。但是在加载更大的数据文件时遇到问题。这个(CSV)文件大小约为2.2 TB(也有Parquet / Snappy格式,550GB大小)。我创建了一个Sparkling-water集群,其中包含100个100GB执行程序的执行程序。 “解析”步骤运行大约60-70%,然后容器开始失败,错误代码为143和255.我已经将内存增加到大约12 TB,但仍然没有成功。

python代码是:

import h2o
h2o.init(ip='hdchdp01v03', port=9500, strict_version_check=False)
ls_hdfs="hdfs://HDCHDP01ns/h2o_test/csv_20171004"
print("Reading files from ", ls_hdfs)
sum_df = h2o.import_file(path = ls_hdfs, destination_frame="sum_df")

有没有人遇到过类似的问题?我的Hadoop集群只有20 TB的内存,所以在大多数情况下占用12 TB内存本身就是一个延伸。

使用我的第一个文件,我看到一旦将数据导入集群,它看起来大约是内存中文件大小的两倍,但不确定如何恢复我分配的4x内存,直到闪烁水集群到来下来。

那么,有没有其他的解决方法可以将这些数据加载到H2o进行分析,并对可用的集群内存进行一些尽职调查?

香卡

0 个答案:

没有答案