如何在Amazon EMR集群上远程提交hadoop MR作业

时间:2018-12-06 00:23:07

标签: python amazon-web-services hadoop mapreduce amazon-emr

当前情况:我有一个EMR集群。在主节点上-我有一个python程序,该程序执行子进程并执行包含以下行的脚本。子进程触发MR作业,并将输出写入到我稍后使用的HDFS中。

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么? 现在,我要分离这部分。我想在笔记本电脑或单独的EC2实例上本地运行python程序,但仍将MR作业提交给EMR群集。假设我在EMR主节点上有test.jar。

如何远程提交?另外,我使用的是Python,我们还假设JAR为黑匣子。我可以使用任何包裹提交工作吗?我必须提到像主节点的IP才能运行它吗?

1 个答案:

答案 0 :(得分:0)

基本上,一旦在远程计算机上设置了Hadoop conf,就可以运行Hadoop或远程启动。

我在此处附加了AWS的spark-submit远程文档链接,但MR相同。我的意思是,一旦完成此步骤,Hadoop jar就可以正常工作。

https://aws.amazon.com/premiumsupport/knowledge-center/emr-submit-spark-job-remote-cluster/