我是Spark新手并且正在尝试运行SparkR页面中提到的示例。通过一些努力,我能够将sparkR安装到我的机器中并且能够运行基本的wordcount示例。但是,当我尝试运行时:
library(SparkR)#works fine - 加载包 sc< - sparkR.init()#works很好 sqlContext< - sparkRSQL.init(sc)#fails
它说,没有名为'sparkRSQL'的软件包。根据文档sparkRSQL.init是sparkR包中的一个函数。如果我在这里遗漏任何东西,请告诉我。
提前致谢。
答案 0 :(得分:0)
我在尝试测试sparkR时已经遇到过这个问题。这部分缺乏文档。 问题是" sparkRSQL"和" sparkRHive"不包含在master分支中,所以你必须从" sparkr-sql"安装sparkR包。使用此命令分支:
library(devtools)
install_github("amplab-extras/SparkR-pkg", ref="sparkr-sql", subdir="pkg")
中有一个提示
DataFrame是在Spark 1.3中引入的; 1.3兼容的SparkR版本可以在Github repo sparkr-sql分支中找到,它包含一个用于DataFrames的初步R API。要将SparkR与旧版本的Spark链接,请使用此页面或主分支上的存档。