我有一个PySpark数据帧,其中的日期列编码为具有以下格式的字符串:
df.select("issue_d").show()
+--------+
| issue_d|
+--------+
|Dec-2015|
|Dec-2015|
|Dec-2015|
|Dec-2015|
|Dec-2015|
|Dec-2015|
|Dec-2015|
|Dec-2015|
|Dec-2015|
我想将其强制转换为日期列。我知道我可以提取前3个字母并将其映射为整数,但这似乎并不专业。必须有一种更好的方法来用一两行代码来转换它。这是我想要的输出:
df.select("issue_month").show()
+------------+
| issue_month|
+------------+
|12|
|12|
|12|
|12|
|12|
|12|
|12|
|12|
|12|
答案 0 :(得分:2)
使用 from_unixtime + unix_timestamp
函数将month(MMM)
格式转换为'MM'
。
Example:
#sample data
df1.show()
#+--------+
#| issue_d|
#+--------+
#|Dec-2015|
#|Jun-2015|
#+--------+
df1.selectExpr("from_unixtime(unix_timestamp(issue_d,'MMM-yyyy'),'MM') as issue_month").show()
+-----------+
|issue_month|
+-----------+
| 12|
| 06|
+-----------+
#or add as new column
df1.withColumn("issue_month",from_unixtime(unix_timestamp(col("issue_d"),'MMM-yyyy'),'MM')).show()
#+--------+-----------+
#| issue_d|issue_month|
#+--------+-----------+
#|Dec-2015| 12|
#|Jun-2015| 06|
#+--------+-----------+
#overwrite existing column
df1.withColumn("issue_d",from_unixtime(unix_timestamp(col("issue_d"),'MMM-yyyy'),'MM')).show()
+-------+
|issue_d|
+-------+
| 12|
| 06|
+-------+
#overwrite the exisitng df1 with new column
df1=df1.withColumn("issue_month",from_unixtime(unix_timestamp(col("issue_d"),'MMM-yyyy'),'MM')).select("issue_month")
df1.show()
#+-----------+
#|issue_month|
#+-----------+
#| 12|
#| 06|
#+-----------+