我有一个带有timestamp列的spark数据帧,我想要一个新列,其中的字符串格式为“YYYYMM”。
我尝试过:
df.withColumn('year_month',year(col("timestamp")).cast("string")+month(col("timestamp")).cast("string"))
但如果我的时间戳是2016-10-12,那么它将在2020年返回YYYYMM。
答案 0 :(得分:0)
您可以使用date_format
:
from pyspark.sql.functions import date_format
df.withColumn('year_month', date_format('timestamp', 'yyyyMM'))