运行MR作业时“无法验证数据的完整性”

时间:2014-05-24 18:51:12

标签: hadoop amazon-web-services amazon-s3 mapreduce elastic-map-reduce

我正在使用Amazon Elastic Map Reduce运行相对较大的MR工作。

我在小数据集上运行了很多次没有问题。

但是当尝试在大型数据集上运行它时,我遇到以下异常:

  

错误:com.amazonaws.AmazonClientException:无法验证完整性   数据下载。客户计算的内容长度不匹配   从Amazon S3收到的内容长度。数据可能已损坏。

我用谷歌搜索了它,我得到的唯一建议是设置以下内容:

  

System.setProperty( “com.amazonaws.services.s3.disableGetObjectMD5Validation”, “真”);

这根本没有帮助。

我正在使用复制3,11个M1Large数据节点和1个M1Medium主节点。

针对此问题的任何变通方法或已知修复方法?

1 个答案:

答案 0 :(得分:1)

显然,这是一个已知的错误。或者说,亚马逊员工here告诉我。

在S3对象大于2GB的大型数据集上运行时会发生这种情况。

我设法通过迁移到Hadoop 2.4.0和AMI 3.1.0来解决这个问题。