我在hadoop中运行Distcp以将数据从开发群集加载到生产群集..我的问题是资源将从哪里开始..是来自源还是目的地?
答案 0 :(得分:1)
Distcp在其上运行的群集上旋转MapReduce作业。您可以使用该群集上的Yarn UI来监视作业进度和利用率。
让我们假设您是从Prod群集复制到Dev群集,并且担心资源利用率,那么您实际上可以在Dev群集上运行Distcp作业并让它" pull"来自Prod集群的数据。
答案 1 :(得分:1)
无论您何时启动作业/运行distCp命令,它都将使用该环境中的资源。
旁注:只要您提供正确的来源和目的地,就可以在来源或目的地中启动作业。