我已经在集群模式下安装了spark。 1个主人和2个工人。当我在主节点中启动spark shell时,它会在没有得到scala shell的情况下连续运行。 但是当我在一个工作节点上运行spark-shell时,我得到了scala shell。我能够完成这些工作。
val file=sc.textFile(“hdfs://192.168.1.20:9000/user/1gbdata”)
file.count()
为此,我得到了输出。
所以我怀疑实际上是在哪里运行火花工作。 它在工作节点中吗?
答案 0 :(得分:1)
根据documentation,您需要使用以下命令将spark-shell
连接到主节点:spark-shell --master spark://IP:PORT
。可以从主UI或日志文件中检索此URL。
您应该能够在主节点(计算机)上启动spark-shell,确保检查UI以查看spark-shell
是否有效运行以及是否显示了提示(您可能需要发出spark-shell后按键盘上的Enter键。)
请注意,当您在spark-submit
模式下使用cluster
时,驱动程序将直接从其中一个工作节点提交,这与client
模式相反,后者将以 awk -v var=<value of your variable> -F'\t' '{print $1,var+$2,var+$3,$4;}' input.txt > output.txt
模式运行客户流程。有关更多详细信息,请参阅文档。