Question

当前情况：我有一个EMR集群。在主节点上-我有一个python程序，该程序执行子进程并执行包含以下行的脚本。子进程触发MR作业，并将输出写入到我稍后使用的HDFS中。

/usr/bin/hadoop jar test.jar testing.jobs.TestFeatureJob /in/f1.txt /in/f2.txt

我想做什么？现在，我要分离这部分。我想在笔记本电脑或单独的EC2实例上本地运行python程序，但仍将MR作业提交给EMR群集。假设我在EMR主节点上有test.jar。

如何远程提交？另外，我使用的是Python，我们还假设JAR为黑匣子。我可以使用任何包裹提交工作吗？我必须提到像主节点的IP才能运行它吗？

Answer 1

基本上，一旦在远程计算机上设置了Hadoop conf，就可以运行Hadoop或远程启动。

我在此处附加了AWS的spark-submit远程文档链接，但MR相同。我的意思是，一旦完成此步骤，Hadoop jar就可以正常工作。