将SparkR连接到spark集群

时间:2015-07-24 14:26:37

标签: apache-spark sparkr

我在10台机器上运行了一个火花塞集群(1 - 10),主机在机器1上运行。所有这些都在CentOS 6.4上运行。

我正在尝试连接jupyterhub安装(由于在CentOS上安装的问题而在ubuntu docker中运行),使用sparkR连接到集群并获取spark上下文。

我正在使用的代码是

Sys.setenv(SPARK_HOME="/usr/local/spark-1.4.1-bin-hadoop2.4") 
library(SparkR)
sc <- sparkR.init(master="spark://<master-ip>:7077")

我得到的输出是

attaching package: ‘SparkR’
The following object is masked from ‘package:stats’:
filter
The following objects are masked from ‘package:base’:
intersect, sample, table
Launching java with spark-submit command spark-submit sparkr-shell/tmp/Rtmpzo6esw/backend_port29e74b83c7b3 Error in sparkR.init(master = "spark://10.10.5.51:7077"): JVM is not ready after 10 seconds

Error in sparkRSQL.init(sc): object 'sc' not found

我正在使用Spark 1.4.1。火花群也在运行CDH 5.

jupyterhub安装可以通过pyspark连接到集群,我有使用pyspark的python笔记本。

有人能告诉我我做错了吗?

1 个答案:

答案 0 :(得分:0)

我有类似的问题并且四处搜索但没有解决方案。你能告诉我你的意思是“jupyterhub安装(由于在CentOS上安装问题而在ubuntu docker中运行),”?

我们在CentOS 6.4上也有4个集群。我的另一个问题是如何使用像IPython或RStudio这样的IDE与这4台服务器进行交互?我是否使用笔记本电脑远程连接这些服务器(如果有,那么如何?)如果没有,那么另一种解决方案是什么。

现在回答你的问题,我可以尝试一下。我认为您必须使用--yarn-cluster选项,如here所述。我希望这可以帮助您解决问题。

干杯, 阿希什