具有合成时间戳的Spark窗口函数?

时间:2015-02-17 21:27:32

标签: java stream apache-spark spark-streaming

假设我有一个包含记录的数据文件,其中每条记录都有一个时间戳,如下所示:

foo,bar,blaz,timestamp1
foo,flibble,baz,timestamp2
bleh,foo,gnarly,timestamp3
...

我希望使用Spark处理它,需要使用window()函数。是否有任何方法可以读取这些记录,并将每个记录都放入DStream中,以便window()函数使用的时间戳由我的代码显式提供(基于在这种情况下解析输入记录中的时间戳字段) )?

1 个答案:

答案 0 :(得分:1)

不,默认的Spark处理基于系统时间。如果你想使用事件时间构建窗口。我建议你用完" updateStateByKey"函数来处理更新函数内的逻辑。