我需要在pySpark中读取连续的文件。以下适用于我。
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
如何阅读8-14文件?
答案 0 :(得分:3)
使用花括号。
file =“events.parquet / exportDay = 201509 {08,09,10,11,12,13,14}”
这是关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议使用花括号,或执行多次读取然后联合对象(无论它们是RDD还是数据框或其他什么,应该有某种方式)。
答案 1 :(得分:2)
我相信它使用shell globbing。
帖子:How to read multiple text files into a single RDD?
似乎暗示以下内容应该有效。
“events.parquet / exportDay = 2015090 [89],events.parquet / exportDay = 2015091 [0-4]”