嗨,我是hadoop的新手,我还在学习。现在,我试图在Openstack hadoop集群上运行我的jar文件,在该集群中,我创建了1个主节点和4个工作(从)节点。我已将可运行的jar文件放在主节点上,以便可以轻松地以以下方式运行该jar文件:
hadoop jar myfile.jar argument1 argument2 output
其中 argument1 和 argument2 是jar文件的输入,而 output 告诉输出将存储在hdfs上的位置。
这里我有两个问题:
我是否在所有从属节点上运行此jar文件?从hadoop浏览日志中可以看到,这些节点正在运行不同的MapReduce作业。这是否意味着尽管我没有在这些节点上存储jar文件,但我正在这四个工作节点上运行jar文件?
如果要在不同节点号上运行此jar文件,应该使用什么命令?
我在Spark上注意到这很容易做到:
$SPARK_HOME/bin/spark-submit --master yarn --deploy-mode cluster --num-executors n --executor-cores 1 myfile.jar
其中n用于指定可运行的节点号。
hadoop可以做些熟悉的事情吗?