我在本地存储了json事件(用于调试),具有以下结构:events/year/month/day/hour/somefiles.log
。每个file.log
都是一行文件,每行都有一个json对象(我的事件)。
如何从包sparklyr中以spark_read_json
递归加载此文件。
我试过了:
library(sparklyr)
sc = spark_connect(master = "local")
events = spark_read_json(sc = sc, name = "events", path = "events/*")
但没有成功。
实际上它在路径中的某个级别工作,例如
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/day/*")
有效,但
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*"
无法正常工作
答案 0 :(得分:3)
您可能需要使用多个通配符指定路径搜索的深度。尝试:
events = spark_read_json(sc = sc, name = "events", path = "events/year/month/*/*")