我已经在Ubuntu 18.04上安装了Spark 2.3.0,它有两个节点:一个是主节点(ip:172.16.10.20),另一个是从节点(ip:172.16.10.30)。我可以检查一下此Spark集群是否正常运行
jps -lm | grep spark
14165 org.apache.spark.deploy.master.Master --host 172.16.10.20 --port 7077 --webui-port 8080
13701 org.apache.spark.deploy.worker.Worker --webui-port 8081 spark://172.16.10.20:7077
我尝试使用这个简单的R脚本(使用sparklyr软件包):
library(sparklyr)
library(dplyr)
# Set your SPARK_HOME path
Sys.setenv(SPARK_HOME="/home/master/spark/spark-2.3.0-bin-hadoop2.7/")
config <- spark_config()
# Optionally you can modify config parameters here
sc <- spark_connect(master = "spark://172.16.10.20:7077", spark_home = Sys.getenv("SPARK_HOME"), config = config)
# Some test code, copying data to Spark cluster
iris_tbl <- copy_to(sc, iris)
src_tbls(sc)
spark_apply(iris_tbl, function(data) {
return(head(data))
})
所有命令都执行得很好,流畅(但我觉得有点慢),并且将火花日志保存在临时文件中。当查看日志文件时,我没有提到从节点,这使我怀疑该Spark是否真的在集群模式下运行。
如何检查主从关系是否真的正常工作?
答案 0 :(得分:0)
在您的情况下,请检查
172.16.10.20:8080 url并打开“执行程序”选项卡以查看正在运行的执行程序的数量
答案 1 :(得分:0)
这里是URL
http://[driverHostname]:4040 by default
http://<master-ip>:8080(webui-port)
Additional info on a monitor and inspect Spark job executions