根据分区日期选择镶木地板

时间:2017-09-04 14:34:04

标签: apache-spark pyspark partitioning parquet

我的群集上有一些重型日志,我已经使用以下分区架构对所有这些日志进行了调整:

DriveLetter:\SiteLocationFolder\SpecificFileShare\> dir DL:\SLF\SFS\ -path \UselessFolder -prune -o *xml /b /s >DL:\SLF\FileShareReportsFolder\

例如,如果我想在2017/07/12和2017/08/10之间选择所有日志,有没有办法有效地做到这一点?或者我是否需要遍历所有日子才能逐个阅读分区?

谢谢,

1 个答案:

答案 0 :(得分:2)

在pyspark中加载文件时可以使用一些正则表达式:

input_path = "PARTITION_YEAR=2017/PARTITION_MONTH=0{7/PARTITION_DAY={1[2-9],[2-3]*},8/PARTITION_DAY={0[1-9],10}}"
df = spark.read.parquet(input_path)

您还可以生成以逗号分隔的路径列表:

input_path = ",".join(["PARTITION_YEAR=2017/PARTITION_MONTH=07/PARTITION_DAY=" + str(x) for x in range(12, 32)]) \
+ ",".join(["PARTITION_YEAR=2017/PARTITION_MONTH=08/PARTITION_DAY=" + str(x) for x in range(1, 11)]) 

或使用日期:

import datetime as dt
d1 = dt.date(2017,7,12)
d2 = dt.date(2017,8,10)

date_list = [d1 + dt.timedelta(days=x) for x in range(0, (d2 - d1).days + 1)]
input_path = ",".join(["PARTITION_YEAR=2017/PARTITION_MONTH=%02d/PARTITION_DAY=%02d" % (d.month, d.day) for d in  date_list])