Question

我已经在集群模式下安装了spark。 1个主人和2个工人。当我在主节点中启动spark shell时，它会在没有得到scala shell的情况下连续运行。但是当我在一个工作节点上运行spark-shell时，我得到了scala shell。我能够完成这些工作。

val file=sc.textFile(“hdfs://192.168.1.20:9000/user/1gbdata”)
file.count()

为此，我得到了输出。

所以我怀疑实际上是在哪里运行火花工作。它在工作节点中吗？

Answer 1

根据documentation，您需要使用以下命令将spark-shell连接到主节点：spark-shell --master spark://IP:PORT。可以从主UI或日志文件中检索此URL。

您应该能够在主节点（计算机）上启动spark-shell，确保检查UI以查看spark-shell是否有效运行以及是否显示了提示（您可能需要发出spark-shell后按键盘上的Enter键。）

请注意，当您在spark-submit模式下使用cluster时，驱动程序将直接从其中一个工作节点提交，这与client模式相反，后者将以awk -v var=<value of your variable> -F'\t' '{print $1,var+$2,var+$3,$4;}' input.txt > output.txt模式运行客户流程。有关更多详细信息，请参阅文档。

Apache在群集模式下激发运行作业的位置。在Master或工作节点中？

1 个答案: