如何从Spark DataFrame(Scala)中检索最后24小时的数据?

时间:2017-11-19 21:42:02

标签: scala apache-spark spark-dataframe

我想从我的DataFrame中检索最后24小时的数据。

val data = spark.read.parquet(path_to_parquet_file)
data.createOrReplaceTempView("table")

var df = spark.sql("SELECT datetime, product_PK FROM table WHERE datetime BETWEEN (datetime - 24*3600000) AND datetime")

但是,我不知道如何使用Spark SQL(Spark 2.2.0和Scala 2.11)将datetime转换为毫秒。

我可以使用DataFrame来做,但不知道如何将所有内容合并在一起:

import org.apache.spark.sql.functions.unix_timestamp

df = df.withColumn("unix_timestamp",unix_timestamp(col("datetime"))).drop("datetime")

0 个答案:

没有答案