我想将Spark数据框缩小为某个日期之后的日期,即2020-03-01。通过sql加载数据为我提供了数据列的字符串,因此在尝试通过数据比较删除行之前更改了它。 不幸的是,我的以下方法导致df为空。
query = "select id, date , volume from "+ INPUT_DB + "." + INPUT_TABLE
sdf_monthly = spark.sql(query)
sdf_monthly.count()
>>>113683937
sdf_monthly=sdf_monthly.withColumn("date", F.to_date(F.unix_timestamp(sdf_monthly["date"],"YYYY-MM-DD").cast("timestamp")))
sdf_monthly_new =sdf_monthly.filter(sdf_monthly["date"] >= F.unix_timestamp(F.lit('2020-03-01')).cast('timestamp'))
sdf_monthly_new.count()
>>>0
感谢您的帮助!
答案 0 :(得分:0)
可能是因为您正在将日期与Linux时间戳进行比较。试试:
sdf_monthly_new =sdf_monthly.filter(sdf_monthly["date"] >= F.to_date(F.unix_timestamp(F.lit('2020-03-01')).cast('timestamp')))
sdf_monthly_new.count()