我一直在使用s3-dist-cp将压缩的JSON文件从S3移动到HDFS,作为更大工作的一部分。我从EMR 5.4开始并通过大多数5.x升级,我目前使用EMR 5.7运行32个机器群集,没有任何问题。
当我尝试升级到EMR 5.8时,s3-dist-cp作业失败,如下所示。在5.7和5.8之间有什么变化会导致这种情况吗?
#
# java.lang.OutOfMemoryError: Java heap space
# -XX:OnOutOfMemoryError="kill -9 %p
kill -9 %p"
# Executing /bin/sh -c "kill -9 11042
kill -9 11042"...
/usr/share/aws/emr/s3-dist-cp/bin/s3-dist-cp: line 55: 11042 Killed hadoop jar "$S3_DIST_CP_JAR" -libjars "$LIBJARS" "$@"
Traceback (most recent call last):
...
答案 0 :(得分:2)
可能为时已晚,但是是的,s3-dist-cp上有一个错误导致emr-5.8.0上的s3-dist-cp作业失败,否则将在emr-5.7.0上运行。此错误可能会导致S3DistCp客户端上的OOM,因为在实际提交MapRed作业之前列出S3对象时会消耗更多内存。它在5.9.0中修复。