标签: amazon-s3 manifest emr
我们正在使用S3Distcp通过使用清单文件将文件从S3复制到HDFS - 即,我们在S3Distcp命令中使用--copyFromManifest参数。但是,在S3DistCP步骤中,只复制清单中列出的部分文件。我不知道我们应该从哪里开始寻找问题 - 也就是说,为什么有些文件是副本而有些文件不是?
由于
答案 0 :(得分:0)
问题可能是你有相同名称但在不同目录下的文件。在这种情况下,您需要更改构建 baseName 和 srcDir 字段的方式。请描述如何构建清单文件。