如何在Spark Structured Streaming中处理已删除(或更新)的行?

时间:2016-12-09 07:45:25

标签: apache-spark apache-spark-sql spark-structured-streaming

如果我想count有多少人在"Coca-Cola"积极工作,我会使用以下查询:

people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...

这在批处理模式下工作正常。

但是,假设company的{​​{1}}字段随着时间的推移而发生变化,或者假设人们完全从person中删除,那么我怎样才能使用结构化流式传输,因此Dataset仍然正确吗?

AFAIK Structured Streaming假设数据源仅附加:这是否意味着我需要将删除和更新作为单独的数据源进行跟踪,并自行合并?

0 个答案:

没有答案