如何从Spark中的时间戳创建新的字符串列提取整数?

时间:2016-10-13 14:09:49

标签: python apache-spark pyspark spark-dataframe pyspark-sql

我有一个带有timestamp列的spark数据帧,我想要一个新列,其中的字符串格式为“YYYYMM”。

我尝试过:

df.withColumn('year_month',year(col("timestamp")).cast("string")+month(col("timestamp")).cast("string"))

但如果我的时间戳是2016-10-12,那么它将在2020年返回YYYYMM。

1 个答案:

答案 0 :(得分:0)

您可以使用date_format

from pyspark.sql.functions import date_format
df.withColumn('year_month', date_format('timestamp', 'yyyyMM'))