在Rstudio中将sparklyr连接到远程sparkR时出错

时间:2016-10-03 17:22:41

标签: rstudio sparklyr

我在本地RStudio会话中尝试使用以下命令连接到sparkR -

sc <- spark_connect(master = "spark://x.x.x.x:7077",
spark_home = "/home/hduser/spark-2.0.0-bin-hadoop2.7", version="2.0.0", config = list())

但是,我收到了以下错误 -

Error in start_shell(master = master, spark_home = spark_home, spark_version = version,  : 
SPARK_HOME directory '/home/hduser/spark-2.0.0-bin-hadoop2.7' not found

任何帮助?

提前致谢

1 个答案:

答案 0 :(得分:0)

我可以问你有没有将火花安装到该文件夹​​中? 你能在ls文件夹中显示/home/ubuntu/命令的结果吗?

sessionInfo()在R?

请允许我与您分享我如何使用自定义文件夹结构。 它是Win,而不是Ubuntu,但我想它不会产生很大的不同。

使用最新的开发版

如果你要查看GitHub,那么RStudio的家伙几乎每天都会更新sparklyr来修复众多报告的错误:

  

devtools :: install_github(&#34; rstudio / sparklyr&#34)

在我的情况下,只有sparklyr_0.4.12的安装解决了Windows下的Spark 2.0

的问题

检查Spark可用性

请检查您查询的版本是否可用:

  

spark_available_versions()

您应该看到类似下面一行的内容,表示您要使用的版本实际上可用于您的闪光包。

  

[13] 2.0.0 2.7 spark_install(版本=&#34; 2.0.0&#34;,hadoop_version =&#34; 2.7&#34;)

安装Spark

只是为了保持您可能希望在其他位置安装spark的顺序,而不是RStudio缓存的主文件夹。

  

选项(spark.install.dir =&#34; c:/ spark&#34;)

如果您确定需要的版本可用,则可以安装spark

  

spark_install(版本=&#34; 2.0.0&#34;,hadoop_version =&#34; 2.7&#34;)

我检查它是否安装正确(如果需要,请将其更改为shell ls

  

cd c:/ spark   dir(在Win中)| ls(在Ubuntu中)

现在指定您要使用的版本的位置:

  

Sys.setenv(SPARK_HOME =&#39; C:/spark/spark-2.0.0-bin-hadoop2.7')

最后享受连接的创造:

  

sc&lt; - spark_connect(master =&#34; local&#34;)

我希望它有所帮助。