我有多个位于嵌套文件夹中的文件,例如:
/bucket/folder1/foloder2/folder3/data.csv
我想访问位于folder2中的所有data.json文件,我可以使用scala使用以下代码执行相同的操作:
sc.textFile("/bucket/folder1/*/folder3/data.json")
如何使用SparkR实现相同的目标?
尝试使用sparkR ::: textFile
my_rdd<-SparkR:::textFile(sc,"/bucket/folder1/*/folder3/data.json")
但收到以下错误 -
16/09/14 16:02:48错误RBackendHandler:1上的defaultParallelism失败 invokeJava出错(isStatic = FALSE,objId $ id,methodName,...):
答案 0 :(得分:0)
在 Spark 2.0 :
中df <- read.json("/bucket/folder1/*/folder3/data.json")
请注意,所有内容都将加载到SparkDataFrame中,并且需要先创建SparkR会话:sparkR.session()
。
在 Spark 1.6.2 :
中df <- read.json(sqlContext, "/bucket/folder1/*/folder3/data.json")
请注意,以前需要创建sqlContext:sqlContext <- sparkRSQL.init(sc)
。