我每天都会在Google Storage Bucket中放置文件,我正在尝试在Google Cloud Dataflow中找到正确的方法来查找两个文本文件(今天的文件和昨天的文件)之间的差异。我没有在数据流API中看到任何开箱即用的功能,以找到两个PCollection之间的增量。我们是否有寻找delta的API支持,或者我们应该编写PTransform?
答案 0 :(得分:1)
没有用于查找两个PCollections之间差异的现有API。每个PCollection表示可能无限制的无序时间戳事件流。两个无界流之间的差异尚未明确定义。
鉴于这些来自文件,你应该能够写一些东西来做到这一点。例如,您可以按行的内容键入,然后执行CoGroupByKey以查找左侧文件中的键而不是右侧的键。