Sparklyr对Spark 2.3.1的支持

时间:2018-07-13 08:00:18

标签: r apache-spark sparklyr

我下载了spark版本2.3.1,但出现以下错误:

Error in spark_version_from_home(spark_home, default = spark_version) : 
Failed to detect version from SPARK_HOME or SPARK_HOME_VERSION. Try passing the spark version explicitly.

使用spark_available_versions()时,最后的结果是2.3.0。

sparklyR还不支持2.3.1吗?有什么办法可以绕过这个问题或使用其他任何显式代码来克服这个问题?

1 个答案:

答案 0 :(得分:1)

我正在Windows 7上工作,首先请验证是否已定义环境变量。 SPARK_HOME = c:\ spark Path = C:\ spark \ bin 。然后检查以下命令。

Sys.getenv('SPARK_HOME')
 "C:\\spark"
spark_version_from_home(Sys.getenv('SPARK_HOME'))
 "2.3.1"
system('spark-submit --version')
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Scala version 2.11.8, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_151
Branch 
Compiled by user vanzin on 2018-06-01T20:37:04Z
Revision 
Url 
Type --help for more information.

最后通过spark建立连接。

sc <- spark_connect(master = "local") # work

现在,只要您的Sparklyr问题0.8.4支持spark 2.3.1,是和否。好吧,在我的情况下,使用时:(引发错误)

sc <- spark_connect(master = "local", version = "2.3.1") #it does not work
Error in spark_install_find(version, hadoop_version, latest = FALSE, hint = TRUE) : 
  Spark version not installed. To install, use spark_install(version = "2.3.1")

如果我们确认以下日期,则发布最新版本的Apache Spark 2.3.1(2018年6月8日),而最新版本的Sparklyr 0.8.4是(2018年5月25日),即一个月发布较早(火花2.3.1不存在)。同样在使用以下命令时:

spark_install(version = "2.3.1")
Error in spark_install_find(version, hadoop_version, installed_only = FALSE,:
spark_available_versions()
   spark
1  1.6.3
2  1.6.2
3  1.6.1
4  1.6.0
5  2.0.0
6  2.0.1
7  2.0.2
8  2.1.0
9  2.1.1
10 2.2.0
11 2.2.1
12 2.3.0

我认为,完全激发2.3.1的支持解决方案(不是现在的一部分)是等待sparklyr 0.9.0的启动或与维护管理器软件包Javier Luraschi进行通信。