Apache在群集模式下激发运行作业的位置。在Master或工作节点中?

时间:2016-06-16 08:22:26

标签: scala shell apache-spark

我已经在集群模式下安装了spark。 1个主人和2个工人。当我在主节点中启动spark shell时,它会在没有得到scala shell的情况下连续运行。 但是当我在一个工作节点上运行spark-shell时,我得到了scala shell。我能够完成这些工作。

val file=sc.textFile(“hdfs://192.168.1.20:9000/user/1gbdata”)
file.count()

为此,我得到了输出。

所以我怀疑实际上是在哪里运行火花工作。 它在工作节点中吗?

1 个答案:

答案 0 :(得分:1)

根据documentation,您需要使用以下命令将spark-shell连接到主节点:spark-shell --master spark://IP:PORT。可以从主UI或日志文件中检索此URL。

您应该能够在主节点(计算机)上启动spark-shell,确保检查UI以查看spark-shell是否有效运行以及是否显示了提示(您可能需要发出spark-shell后按键盘上的Enter键。)

请注意,当您在spark-submit模式下使用cluster时,驱动程序将直接从其中一个工作节点提交,这与client模式相反,后者将以 awk -v var=<value of your variable> -F'\t' '{print $1,var+$2,var+$3,$4;}' input.txt > output.txt 模式运行客户流程。有关更多详细信息,请参阅文档。