如何使用sparklyr中的spark_read_json读取目录中的所有文件

时间:2016-09-26 16:14:57

标签: json r apache-spark sparklyr

我在本地存储了json事件(用于调试),具有以下结构:events/year/month/day/hour/somefiles.log。每个file.log都是一行文件,每行都有一个json对象(我​​的事件)。

如何从包sparklyr中以spark_read_json递归加载此文件。 我试过了:

library(sparklyr)

sc = spark_connect(master = "local")
events = spark_read_json(sc = sc, name = "events", path = "events/*")

但没有成功。

编辑1

实际上它在路径中的某个级别工作,例如

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")有效,但

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"无法正常工作

1 个答案:

答案 0 :(得分:3)

您可能需要使用多个通配符指定路径搜索的深度。尝试:

events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*/*")