标签: apache-spark apache-spark-sql spark-structured-streaming spark-jdbc
我需要一个数据库查询(JDBC数据源)中的数据集,其中包含比某个时间戳(例如select * from TABLE where created_at > ?)新的所有行。但是我需要针对每个出现的微批处理进行更新。理想情况下,我想每次都修改数据集,但一次最多保留n行(而不是重新加载整个行)每次)。这样,我就可以获取自上次查找以来添加的表行。
select * from TABLE where created_at > ?
n
在Spark结构化流媒体中,有没有办法实现这一目标(或接近这一目标的东西)?