如何以编程方式在Dataproc集群上运行Hadoop utils?

时间:2019-02-25 14:48:00

标签: google-app-engine google-cloud-platform google-cloud-dataproc

我有:

  • App Engine应用程序(Java / Python)
  • Dataproc集群

我想以编程方式在主节点(hadoop distcp)上运行Hadoop utils之一。最好的方法是什么?到目前为止,我有下一个线索:ssh到主节点并从那里运行util。还有其他选择可以实现相同的目标吗?

1 个答案:

答案 0 :(得分:4)

要运行DistCp,您可以提交常规的Hadoop MR job through Dataproc API or gcloud并指定org.apache.hadoop.tools.DistCp作为主要类:

gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
    --class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>

在Python中,您可以直接使用REST APIPython Client library来提交DistCp作业。