如何使用通配符访问SparkR中的多个文件

时间:2016-09-14 16:04:47

标签: sparkr

我有多个位于嵌套文件夹中的文件,例如:

/bucket/folder1/foloder2/folder3/data.csv

我想访问位于folder2中的所有data.json文件,我可以使用scala使用以下代码执行相同的操作:

sc.textFile("/bucket/folder1/*/folder3/data.json")

如何使用SparkR实现相同的目标?

尝试使用sparkR ::: textFile

my_rdd<-SparkR:::textFile(sc,"/bucket/folder1/*/folder3/data.json")

但收到以下错误 -

16/09/14 16:02:48错误RBackendHandler:1上的defaultParallelism失败 invokeJava出错(isStatic = FALSE,objId $ id,methodName,...):

1 个答案:

答案 0 :(得分:0)

Spark 2.0

df <- read.json("/bucket/folder1/*/folder3/data.json")

请注意,所有内容都将加载到SparkDataFrame中,并且需要先创建SparkR会话:sparkR.session()

Spark 1.6.2

df <- read.json(sqlContext, "/bucket/folder1/*/folder3/data.json")

请注意,以前需要创建sqlContext:sqlContext <- sparkRSQL.init(sc)