我在pyspark数据框中有一个由时间(数据类型:()组成的字段,格式为mm-dd-yy,hr-mm-ss。看起来像:
+--------------------+
|timestamp |
+--------------------
| 04-04-2019,18:34:38|
| 04-05-2019,14:02:56|
| 04-06-2019,01:06:08|
| 04-06-2019,17:20:25|
| 04-12-2019,23:33:46|
如何将该字段转换为yyyy-mm-dd之类的字符串,例如“ 2019-04-04”?
答案 0 :(得分:1)
使用格式为to_date()
MM-dd-yyyy
功能
Example:
df.show()
#+-------------------+
#| timestamp|
#+-------------------+
#|04-04-2019,18:34:38|
#+-------------------+
from pyspark.sql.functions import *
df.withColumn("date",to_date(col("timestamp"),"MM-dd-yyyy")).show()
#+-------------------+----------+
#| timestamp| date|
#+-------------------+----------+
#|04-04-2019,18:34:38|2019-04-04|
#+-------------------+----------+