Pyspark列:将字符串转换为日期类型

时间:2020-04-13 03:00:49

标签: python-3.x dataframe pyspark

我正在尝试将字符串类型的pyspark列转换为日期类型,如下所示。

**Date**
31 Mar 2020
2  Apr 2020
29 Jan 2019
8  Sep 2109

需要的输出:

31-03-2020
02-04-2020
29-01-2019
08-04-2109  

谢谢。

2 个答案:

答案 0 :(得分:1)

在这种情况下,您可以在内置函数中使用dayofmonth,year,month(或)date_format()(或)from_unixtime(unix_timestamp())

Example:

#sample data
df=spark.createDataFrame([("31 Mar 2020",),("2 Apr 2020",),("29 Jan 2019",)],["Date"])
#DataFrame[Date: string]
df.show()
#+-----------+
#|       Date|
#+-----------+
#|31 Mar 2020|
#| 2 Apr 2020|
#|29 Jan 2019|
#+-----------+

from pyspark.sql.functions import *

df.withColumn("new_dt", to_date(col("Date"),"dd MMM yyyy")).\
withColumn("year",year(col("new_dt"))).\
withColumn("month",month(col("new_dt"))).\
withColumn("day",dayofmonth(col("new_dt"))).\
show()

#+-----------+----------+----+-----+---+
#|       Date|    new_dt|year|month|day|
#+-----------+----------+----+-----+---+
#|31 Mar 2020|2020-03-31|2020|    3| 31|
#| 2 Apr 2020|2020-04-02|2020|    4|  2|
#|29 Jan 2019|2019-01-29|2019|    1| 29|
#+-----------+----------+----+-----+---+

#using date_format
df.withColumn("new_dt", to_date(col("Date"),"dd MMM yyyy")).\
withColumn("year",date_format(col("new_dt"),"yyyy")).\
withColumn("month",date_format(col("new_dt"),"MM")).\
withColumn("day",date_format(col("new_dt"),"dd")).show()

#+-----------+----------+----+-----+---+
#|       Date|    new_dt|year|month|day|
#+-----------+----------+----+-----+---+
#|31 Mar 2020|2020-03-31|2020|   03| 31|
#| 2 Apr 2020|2020-04-02|2020|   04| 02|
#|29 Jan 2019|2019-01-29|2019|   01| 29|
#+-----------+----------+----+-----+---+

答案 1 :(得分:1)

to_date 函数需要的天数为 02 ' 2' ,而不是 2 。因此,我们可以使用 regex 删除空格,然后在字符串的 length less than max(9) ,我们可以添加字符串的 0 to the start 。然后,我们可以应用 to_date 并使用它来提取您的其他列(日,月,年)。也可以使用 date_format 将日期保留为指定的格式

df.show()#sample df
+-----------+
|       Date|
+-----------+
|31 Mar 2020|
|2  Apr 2020|
|29 Jan 2019|
|8  Sep 2019|
+-----------+

from pyspark.sql import functions as F    
df.withColumn("regex", F.regexp_replace("Date","\ ",""))\
  .withColumn("Date", F.when(F.length("regex")<9, F.concat(F.lit(0),F.col("regex")))\
              .otherwise(F.col("regex"))).drop("regex")\
  .withColumn("Date", F.to_date("Date",'ddMMMyyyy'))\
  .withColumn("Year", F.year("Date"))\
  .withColumn("Month",F.month("Date"))\
  .withColumn("Day", F.dayofmonth("Date"))\
  .withColumn("Date_Format2", F.date_format("Date", 'dd-MM-yyyy'))\
  .show()

#output
+----------+----+-----+---+------------+
|      Date|Year|Month|Day|Date_Format2|
+----------+----+-----+---+------------+
|2020-03-31|2020|    3| 31|  31-03-2020|
|2020-04-02|2020|    4|  2|  02-04-2020|
|2019-01-29|2019|    1| 29|  29-01-2019|
|2019-09-08|2019|    9|  8|  08-09-2019|
+----------+----+-----+---+------------+