PySpark删除列中的无效日期时间格式

时间:2017-01-01 20:19:19

标签: python apache-spark pyspark pyspark-sql

我的日期时间字段格式为:2016-10-15 00:00:00 在将数据保存到镶木地板文件时使用推断模式后,我有几行不符合此格式。

如何在PySpark中集体删除它们?

这导致我的UDF出现问题。

1 个答案:

答案 0 :(得分:0)

假设您正在解析日期列,而具有无效日期的行为空,通常就是这种情况:

df.filter(col('date').isNotNull())

或者,如果您的日期被读作字符串,则可以使用unix_timestamp解析它:

(
    df
    .select(unix_timestamp('date', 'yyyy-MM-dd HH:mm:ss').cast("timestamp").alias('date'))
    .filter(col('date').isNotNull())
)