在pyspark中将mm-dd-yy,hr-mm-ss转换为yy-mm-dd时间戳

时间:2020-08-11 23:28:38

标签: python date apache-spark pyspark timestamp

我在pyspark数据框中有一个由时间(数据类型:()组成的字段,格式为mm-dd-yy,hr-mm-ss。看起来像:

+--------------------+
|timestamp       |
+-------------------- 
| 04-04-2019,18:34:38|    
| 04-05-2019,14:02:56|    
| 04-06-2019,01:06:08|    
| 04-06-2019,17:20:25|    
| 04-12-2019,23:33:46| 

如何将该字段转换为yyyy-mm-dd之类的字符串,例如“ 2019-04-04”?

1 个答案:

答案 0 :(得分:1)

使用格式为to_date()

MM-dd-yyyy 功能

Example:

df.show()
#+-------------------+
#|          timestamp|
#+-------------------+
#|04-04-2019,18:34:38|
#+-------------------+

from pyspark.sql.functions import *

df.withColumn("date",to_date(col("timestamp"),"MM-dd-yyyy")).show()
#+-------------------+----------+
#|          timestamp|      date|
#+-------------------+----------+
#|04-04-2019,18:34:38|2019-04-04|
#+-------------------+----------+
相关问题