我们正在从spark1.6迁移到spark2.4。在此过程中,我打算修改我们的流式传输代码之一。我打算使用结构化流。
在现有的流中,我们将流DF(将RDD转换为DF)加入到黑名单文件(又是DF)中。我们每天早上6点都会刷新黑名单DF。但是我们如何在Spark结构化流中刷新DF。我正在使用以下逻辑在1.6中刷新DF
foreachRDD( (rdd, time) -> {
...
...
if (nextRefreshTime > time) {
//refresh the DF
// set nextRefreshTime = next day 6AM
}
})
谢谢 SUBBA