我想使用s3-dist-cp将一些文件从emr-hdfs复制到s3存储桶,我已经尝试了来自“ EMR主节点”的cmd:
s3-dist-cp -Dmapred.job.name=my_copy_job --src hdfs:///user/hadoop/abc s3://my_bucket/my_key/
此命令执行正常,但是当我在yarn资源管理器UI中检查作业名称时,它显示如下:
S3DistCp hdfs:///user/hadoop/abc **->** s3://my_bucket/my_key/
而预期的工作名称应该是my_copy_job
感谢您的帮助!
注意:
当我使用此选项-Dmapred.job.name=my_copy_job
运行hadoop distcp时,它在yarn RM UI中正确显示了作业名称,但该作业最终失败了
答案 0 :(得分:1)
s3-dist-cp
不支持-D
那样在运行时设置的hadoop distcp
样式属性。 S3 Distcp仅接受here中列出的有限选项集。除了S3DistCp
定义的这些选项之外,它还接受Tool Interface's通用选项。
但是JobName
不是其中之一。在S3DistCp代码中,JobName
是hardcoded,无法覆盖。