应用错误收集

我可以在Spark结构化流媒体中增量更新数据集吗？

时间：2019-03-04 06:19:23

标签： apache-spark apache-spark-sql spark-structured-streaming spark-jdbc

我需要一个数据库查询（JDBC数据源）中的数据集，其中包含比某个时间戳（例如select * from TABLE where created_at > ?）新的所有行。但是我需要针对每个出现的微批处理进行更新。理想情况下，我想每次都修改数据集，但一次最多保留n行（而不是重新加载整个行）每次）。这样，我就可以获取自上次查找以来添加的表行。

在Spark结构化流媒体中，有没有办法实现这一目标（或接近这一目标的东西）？

0 个答案:

没有答案

在Spark中逐步更新聚合
如何在Spark Structured Streaming - Java8上将数据集<row>写入kafka输出主题
Spark结构化流 - 将静态数据集与流数据集连接起来
结构化流式传输与定期更新的静态数据集
如何在Spark结构化流中将JSON数据集转换为DataFrame
在Spark Structured Streaming中找不到“窗口”功能
将collect（）应用于Apache Spark结构化流数据集
如何从Spark Structured Streaming刷新Hive / Impala表？
我可以在Spark结构化流媒体中增量更新数据集吗？
输出数据集中的Spark结构化流为空

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？