我正在创建一个PCollectionView,方法是从gcs存储桶中读取过滤信息并将其作为侧输入传递给我的管道的不同阶段,以便过滤输出。如果gcs存储桶中的文件发生更改,我希望当前运行的管道使用此新的过滤器信息。如果我的过滤器发生变化,有没有办法在每个新的数据窗口更新这个PCollectionView?我以为我可以在startBundle中做到这一点,但我无法弄清楚它是如何或是否可能。如果有可能,你能给出一个例子。
PCollectionView<Map<String, TagObject>>
tagMapView =
pipeline.apply(TextIO.Read.named("TagListTextRead")
.from("gs://tag-list-bucket/tag-list.json"))
.apply(ParDo.named("TagsToTagMap").of(new Tags.BuildTagListMapFn()))
.apply("MakeTagMapView", View.asSingleton());
PCollection<String>
windowedData =
pipeline.apply(PubsubIO.Read.topic("myTopic"))
.apply(Window.<String>into(
SlidingWindows.of(Duration.standardMinutes(15))
.every(Duration.standardSeconds(31))));
PCollection<MY_DATA>
lineData = windowedData
.apply(ParDo.named("ExtractJsonObject")
.withSideInputs(tagMapView)
.of(new ExtractJsonObjectFn()));
答案 0 :(得分:5)
你可能想要类似&#34;使用最多1分钟的过滤器版本作为侧面输入&#34; (因为从理论上讲,文件可以经常更改,不可预测,并且独立于管道 - 因此无法真正完全同步文件的更改与管道的行为。)
这是我能够提出的一个(授予的,相当笨拙的)解决方案。它依赖于侧输入也被窗口隐式地键入的事实。在这个解决方案中,我们将创建一个窗口为1分钟固定窗口的侧面输入,其中每个窗口将包含一个标记贴图值,从该过滤器文件中导出该窗口内的某些时刻。 / p>
PCollection<Long> ticks = p
// Produce 1 "tick" per second
.apply(CountingInput.unbounded().withRate(1, Duration.standardSeconds(1)))
// Window the ticks into 1-minute windows
.apply(Window.into(FixedWindows.of(Duration.standardMinutes(1))))
// Use an arbitrary per-window combiner to reduce to 1 element per window
.apply(Count.globally());
// Produce a collection of tag maps, 1 per each 1-minute window
PCollectionView<TagMap> tagMapView = ticks
.apply(MapElements.via((Long ignored) -> {
... manually read the json file as a TagMap ...
}))
.apply(View.asSingleton());
这种模式(加入缓慢变化的外部数据作为副输入)正在反复出现,我在这里提出的解决方案远非完美,我希望我们在编程模型中有更好的支持。我已经提交BEAM JIRA issue来跟踪此事。