如果我想count
有多少人在"Coca-Cola"
积极工作,我会使用以下查询:
people.filter(_.company == "Coca-Cola").groupByKey(_.company).count().writeStream...
这在批处理模式下工作正常。
但是,假设company
的{{1}}字段随着时间的推移而发生变化,或者假设人们完全从person
中删除,那么我怎样才能使用结构化流式传输,因此Dataset
仍然正确吗?
AFAIK Structured Streaming假设数据源仅附加:这是否意味着我需要将删除和更新作为单独的数据源进行跟踪,并自行合并?