当我做distcp是否mapper将在源或目的地运行

时间:2018-04-12 13:52:44

标签: hadoop hive hdfs distcp

我在hadoop中运行Distcp以将数据从开发群集加载到生产群集..我的问题是资源将从哪里开始..是来自源还是目的地?

2 个答案:

答案 0 :(得分:1)

Distcp在其上运行的群集上旋转MapReduce作业。您可以使用该群集上的Yarn UI来监视作业进度和利用率。

让我们假设您是从Prod群集复制到Dev群集,并且担心资源利用率,那么您实际上可以在Dev群集上运行Distcp作业并让它" pull"来自Prod集群的数据。

答案 1 :(得分:1)

无论您何时启动作业/运行distCp命令,它都将使用该环境中的资源。

旁注:只要您提供正确的来源和目的地,就可以在来源或目的地中启动作业。