当前情况:我有一个EMR集群。在主节点上-我有一个python程序,该程序执行子进程并执行包含以下行的脚本。子进程触发MR作业,并将输出写入到我稍后使用的HDFS中。
/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt
我想做什么? 现在,我要分离这部分。我想在笔记本电脑或单独的EC2实例上本地运行python程序,但仍将MR作业提交给EMR群集。假设我在EMR主节点上有test.jar。
如何远程提交?另外,我使用的是Python,我们还假设JAR为黑匣子。我可以使用任何包裹提交工作吗?我必须提到像主节点的IP才能运行它吗?
答案 0 :(得分:0)
基本上,一旦在远程计算机上设置了Hadoop conf,就可以运行Hadoop或远程启动。
我在此处附加了AWS的spark-submit远程文档链接,但MR相同。我的意思是,一旦完成此步骤,Hadoop jar就可以正常工作。
https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/