使用Python在Dataflow / Beam中进行样本分发

时间:2018-05-26 01:42:15

标签: google-cloud-dataflow apache-beam

问题与this有关。

我正在尝试使用Dataflow / Beam上的Python SDK获取PCollection中的项目示例。

Sample.FixedSizeGlobally(n)存在并导致PCollection为Iterable。

假设我有这个: pipeline | Sample.FixedSizeGlobally(sample_size) | beam.Map(my_function)

在这种情况下,不清楚整个样本是否最终会导致单个工作人员,并且会导致内存不足或是否会分发样本。

1 个答案:

答案 0 :(得分:0)

采样PTransforms的当前实现(从Beam 2.4.0开始)存在这个问题。如果你的样本太大,那么它可能会压倒一个工人。

它还存在并行性很低的问题。

此转换的改进应在几个月内完成,并在JIRA issue BEAM 3000

中进行跟踪