我想从我的DataFrame中检索最后24小时的数据。
val data = spark.read.parquet(path_to_parquet_file)
data.createOrReplaceTempView("table")
var df = spark.sql("SELECT datetime, product_PK FROM table WHERE datetime BETWEEN (datetime - 24*3600000) AND datetime")
但是,我不知道如何使用Spark SQL(Spark 2.2.0和Scala 2.11)将datetime
转换为毫秒。
我可以使用DataFrame来做,但不知道如何将所有内容合并在一起:
import org.apache.spark.sql.functions.unix_timestamp
df = df.withColumn("unix_timestamp",unix_timestamp(col("datetime"))).drop("datetime")