| cicid| i94yr|i94mon|i94cit|i94res|i94port|arrdate
|5748517.0|2016.0| 4.0| 245.0| 438.0| LOS|20574.0|
以上几行显示了我的spark数据帧的状态,我正尝试添加另一列,以将sas日期格式的arrdate转换为日期格式。
import pandas
from pyspark.sql.functions import udf, to_timestamp
get_timestamp = udf(lambda x: (pd.to_timedelta(x, unit="d") + pd.datetime(1960, 1, 1)).date())
df_spark_new = df_spark.withColumn('arrdate_conv',get_timestamp(df_spark['arrdate']))
df_spark_new.select("arrdate_conv").head()
预计将于03/30/2016或任何可读的日期格式