读取pySpark中的文件范围

时间:2016-06-09 17:38:21

标签: python apache-spark pyspark pyspark-sql

我需要在pySpark中读取连续的文件。以下适用于我。

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

如何阅读8-14文件?

2 个答案:

答案 0 :(得分:3)

使用花括号。

file =“events.parquet / exportDay = 201509 {08,09,10,11,12,13,14}”

这是关于堆栈溢出的类似问题:Pyspark select subset of files using regex glob。他们建议使用花括号,或执行多次读取然后联合对象(无论它们是RDD还是数据框或其他什么,应该有某种方式)。

答案 1 :(得分:2)

我相信它使用shell globbing。

帖子:How to read multiple text files into a single RDD?

似乎暗示以下内容应该有效。

“events.parquet / exportDay = 2015090 [89],events.parquet / exportDay = 2015091 [0-4]”