为Hadoop Distcp作业设置YARN应用程序名称

时间:2019-01-30 08:19:18

标签: hadoop yarn distcp

注意:我不想像Hadoop: specify yarn queue for distcp

中那样指定YARN队列名称

我经常使用hadoop distcpHDFS周围移动数据,并希望为这些作业使用描述性应用程序名称


当前,所有复制作业仅在"distcp" UI上以名称Resource Manager出现,并且无法区分不同的作业。

enter image description here


有没有改善的方法?

1 个答案:

答案 0 :(得分:1)

与许多其他 MR工具一样,hadoop distcp还允许您使用

传递 mapred属性

-Dmapred.property.name=property-value


所以当我使用

hadoop distcp \
  -Dmapred.job.name=billing_db.replicate \
  -m 10 \
  /user/hive/warehouse/billing_db.db/ \
  s3a://my-s3-bucket/billing_db.db/

它在Resource Manager用户界面上很好地显示

enter image description here


参考