我使用了以下步骤来配置spark Windows中的独立模式群集,
步骤1:从以下链接下载spark http://www.apache.org/dyn/closer.cgi/spark/spark-1.3.1/spark-1.3.1-bin-hadoop2.4.tgz 注意:我安装了hadoop 2.5.2和scala 2.10.4
步骤2:将spark-1.3.1-bin-hadoop2.4.tgz放在F:/目录中
步骤3:使用以下命令提取此文件 Tar -xf spark-1.3.1-bin-hadoop2.4.tgz
步骤4:使用以下命令设置环境变量以创建SPARK环境
SET HADOOP_HOME=C:\Hadoop
SET SCALA_HOME =C:\scala
SET SPARK_EXECUTOR_MEMORY =512m
SET SPARK_HOME=F:\spark-1.3.1-bin-hadoop2.4
SET SPARK_MASTER_IP =synclapn2881
SET SPARK_WORKER_CORES =2
SET SPARK_WORKER_DIR=F:\work\sparkdata
SET SPARK_WORKER_INSTANCES =4
SET SPARK_WORKER_MEMORY =1g
SET Path=%SPARK_HOME%\bin;%Path%;
步骤5:使用以下命令启动主节点 spark-class org.apache.spark.deploy.master.Master
步骤6:使用以下命令启动从属节点 spark-class org.apache.spark.deploy.worker.Worker spark:// masternode:7077
注意:masternode是localhostname
实际结果
只启动了1个工作节点,但我设置了4个实例,
SET SPARK_WORKER_INSTANCES =4
参考下面的截图
Expected Result
Create 4 Worker nodes, as I had SET SPARK_WORKER_INSTANCES to 4
感谢Advanvce
答案 0 :(得分:0)
在 windows 中,
如果您需要4个工作节点,则必须在同一台机器或4台不同的机器上执行 STEP 6 4 times
使用以下命令spark-class org.apache.spark.deploy.worker.Worker spark://masternode:7077
在Windows中不完全支持Spark。我试图在Windows上运行spark时遇到很多问题。 即使是start-slaves,start-master,start-slave脚本也无法在windows中运行。我认为最好切换到linux。
来自[spark documentation] [1]
的 Note: The launch scripts do not currently support Windows. To run a Spark cluster on Windows, start the master and workers by hand.
强>
[1]:https://spark.apache.org/docs/latest/spark-standalone.html#Cluster启动脚本