apache-spark - 如何在Spark Structured Streaming中处理已删除（或更新）的行？ - Thinbug

如何在Spark Structured Streaming中处理已删除（或更新）的行？

时间：2016-12-09 07:45:25

标签： apache-spark apache-spark-sql spark-structured-streaming

如果我想count有多少人在"Coca-Cola"积极工作，我会使用以下查询：

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

这在批处理模式下工作正常。

但是，假设company的{{1}}字段随着时间的推移而发生变化，或者假设人们完全从person中删除，那么我怎样才能使用结构化流式传输，因此Dataset仍然正确吗？

AFAIK Structured Streaming假设数据源仅附加：这是否意味着我需要将删除和更新作为单独的数据源进行跟踪，并自行合并？

0 个答案:

没有答案