我按月从RDBMS卸载了大量数据,并根据该月将其加载到Google云端存储(GCS)中。然后,我将整个数据集读入数据集群上的pyspark数据框,并希望根据当天而不是月份将其重新写入GCS。我已成功写入云存储,其中每个文件仅包含特定日期,但无法根据该日期有效命名文件或目录。下面的代码执行我想要它做的事情,但它非常低效。我也知道理论上我可以通过使用镶木地板文件解决这个问题,但我的要求是写为CSV。最终,我希望每天使用一个表将这些数据加载到bigquery中,如果有一个更简单的解决方案(我可以将每个表每天导出到一个文件中)。
# Find distinct dates, and then write based on that.
dates = sqlContext.sql("SELECT distinct THE_DATE FROM tbl")
x = dates.collect()
for d in x:
date = d.SLTRN_DT
single_wk = sqlContext.sql("SELECT * FROM tbl where THE_DATE = '{}'".format(date))
towrite = single_wk.map(to_csv)
towrite.coalesce(4).saveAsTextFile('gs://buck_1/AUDIT/{}'.format(date))
所以说我读过的数据有日期['2014-01-01','2014-01-02','2014-01-03']我希望生成的文件/目录看起来像这样:
GS:// buck_1 /审计/ 2014年1月1日/部分-1
GS:// buck_1 /审计/ 2014年1月1日/部分2
GS:// buck_1 /审计/ 2014年1月1日/部分3
gs:// buck_1 / AUDIT / 2014-01-01 / part-4
GS:// buck_1 /审计/ 2014年1月2日/部分-1
GS:// buck_1 /审计/ 2014年1月2日/部分2
GS:// buck_1 /审计/ 2014年1月2日/部分3
gs:// buck_1 / AUDIT / 2014-01-02 / part-4
GS:// buck_1 /审计/ 2014年1月3日/部分-1
GS:// buck_1 /审计/ 2014年1月3日/部分2
GS:// buck_1 /审计/ 2014年1月3日/部分3
gs:// buck_1 / AUDIT / 2014-01-03 / part-4