Question

我需要在pySpark中读取连续的文件。以下适用于我。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何阅读8-14文件？

Answer 1

使用花括号。

file =“events.parquet / exportDay = 201509 {08,09,10,11,12,13,14}”

这是关于堆栈溢出的类似问题：Pyspark select subset of files using regex glob。他们建议使用花括号，或执行多次读取然后联合对象（无论它们是RDD还是数据框或其他什么，应该有某种方式）。

Answer 2

我相信它使用shell globbing。

似乎暗示以下内容应该有效。

“events.parquet / exportDay = 2015090 [89]，events.parquet / exportDay = 2015091 [0-4]”