我有:
我想以编程方式在主节点(hadoop distcp
)上运行Hadoop utils之一。最好的方法是什么?到目前为止,我有下一个线索:ssh到主节点并从那里运行util。还有其他选择可以实现相同的目标吗?
答案 0 :(得分:4)
要运行DistCp,您可以提交常规的Hadoop MR job through Dataproc API or gcloud并指定org.apache.hadoop.tools.DistCp
作为主要类:
gcloud dataproc jobs submit hadoop --cluster=<CLUSTER> \
--class=org.apache.hadoop.tools.DistCp -- <SRC> <DST>
在Python中,您可以直接使用REST API或Python Client library来提交DistCp作业。