在pyspark数据框中将周末日期转换为上一个工作日

时间:2018-05-04 05:51:40

标签: python apache-spark pyspark

我有pyspark数据框,其中有数据列,也有周末日期。我只想将这些日期更改为上一个或下一个工作日。

from pyspark.sql.session import SparkSession
spark = SparkSession.builder.getOrCreate()
columns = ['Date', 'id', 'dogs', 'cats']
vals = [('04-05-2018',1, 2, 0), ('05-05-2018',2, 0, 1), ('06-05-2018',2, 0, 1)]
df = spark.createDataFrame(vals, columns)
df.show()

DataFrame看起来像:

+----------+---+----+----+
|      Date| id|dogs|cats|
+----------+---+----+----+
|04-05-2018|  1|   2|   0|
|05-05-2018|  2|   0|   1|
|06-05-2018|  2|   0|   1|
+----------+---+----+----+

现在,我能够识别工作日,如单独的列

df = df.withColumn('Date', unix_timestamp(df['Date'].cast("string"), 'dd-MM-yyyy').cast("double").cast('timestamp').cast('date'))
df = df.select('Date', date_format('Date', 'u').alias('dow_number'), 'id', 'dogs', 'cats')
temp = df
temp.show()

+----------+----------+---+----+----+
|      Date|dow_number| id|dogs|cats|
+----------+----------+---+----+----+
|2018-05-04|         5|  1|   2|   0|
|2018-05-05|         6|  2|   0|   1|
|2018-05-06|         7|  2|   0|   1|
+----------+----------+---+----+----+

现在我只想将数据转移到上一个工作日或下一个工作日(如果是周末),意味着我希望我的数据框如下:

+----------+----------+---+----+----+
|      Date|dow_number| id|dogs|cats|
+----------+----------+---+----+----+
|2018-05-04|         5|  1|   2|   0|
|2018-05-04|         5|  2|   0|   1|
|2018-05-04|         5|  2|   0|   1|
+----------+----------+---+----+----+

提前致谢。

1 个答案:

答案 0 :(得分:2)

使用生成的dow_number,您可以使用date_sub()来应用条件来检查和减去日期,

df = df.withColumn('Date1',F.when(df['dow_number'] == 6,F.date_sub(df.Date,1)).when(df['dow_number'] == 7,F.date_sub(df.Date,2)).otherwise(df.Date))

+----------+----------+---+----+----+----------+
|      Date|dow_number| id|dogs|cats|     Date1|
+----------+----------+---+----+----+----------+
|2018-05-04|         5|  1|   2|   0|2018-05-04|
|2018-05-05|         6|  2|   0|   1|2018-05-04|
|2018-05-06|         7|  2|   0|   1|2018-05-04|
+----------+----------+---+----+----+----------+

我相信,您也不需要更改dow_number。如果您需要,您可以在新日期使用date_format并获取(或)应用上述其他条件。希望这有帮助!