注意:我不想像Hadoop: specify yarn queue for distcp
中那样指定YARN
队列名称
我经常使用hadoop distcp
在HDFS
周围移动数据,并希望为这些作业使用描述性应用程序名称。
当前,所有复制作业仅在"distcp"
UI上以名称Resource Manager
出现,并且无法区分不同的作业。
有没有改善的方法?
答案 0 :(得分:1)
与许多其他 MR工具一样,hadoop distcp
还允许您使用
mapred
属性
-Dmapred.property.name=property-value
所以当我使用
hadoop distcp \
-Dmapred.job.name=billing_db.replicate \
-m 10 \
/user/hive/warehouse/billing_db.db/ \
s3a://my-s3-bucket/billing_db.db/
它在Resource Manager
用户界面上很好地显示
参考